作者 | 刘燕
从度晓晓、希加加、林开开到叶悠悠,百度已经造出了一个 AI 数字人家族。
在元宇宙风潮之下,数字人先火了。近两年,国内数字人项目呈现井喷态势。IDC 预计,到 2026 年,中国 AI 数字人市场规模将达到 102.4 亿元。作为时下最热的技术话题,我们判断,开发者有必要对数字人技术有完整的认知和理解。
在此背景下,InfoQ 特别策划了《数字人基础技术解析》专题。本专题将首先对数字人做概要介绍,紧接着围绕数字人的技术、应用落地等维度分别做解读。我们将收集来自国内业界一流团队的最佳实践,供读者参考。
本文是本专题的技术 & 实践篇。近日,百度数字人与机器人业务负责人李士岩接受了 InfoQ 专访,详细介绍了百度对 AI 数字人的技术探索和应用落地实践。
百度发力 AI 数字人
近两年, 百度在 AI 数字人领域动作频频,大力布局。百度看好数字人的发展前景,这一认知和判断,是基于对计算平台,对行业及 B 端市场目前呈现出来的需求判断的基础上。
李士岩表示,从整个需求端看,这几年,企业的数字化转型,包括智能服务、智能营销、智能内容生产等,都有着非常旺盛的需求。数字人是一项由技术驱动的产品,近几年来,人像自动建模技术、人像低成本驱动技术,以及通过算法让数字人实现自动化内容生产的技术、规模交付的技术等逐渐发展成熟,这使得数字人的能力与企业的智能化转型所需要的能力高度契合。
在这样的背景下,百度布局 AI 数字人,已是自然而然的选择。
这两年,国内各家云厂商纷纷开始布局虚拟数字人。李士岩认为,这种现象恰恰反应了当前的市场需求,以及当下各项技术的成熟度已经开始呈现逐步满足这些需求的趋势。
与友商相比,百度在数字人领域的定位,从横向上看,更聚焦于百度传统的 AI 优势。“我们具有全链路的 AI 能力,数字人是一个既和视觉技术有关,也和语音技术有关,也和像 AIGC 这样的自动生产内容的技术有关的、需要拉通全链路的底层 AI 技术的产品。基于百度全链路的 AI 能力,可以将数字人的体验进行端对端的优化,并将其效果做到最好”。
从纵向的技术领域看,百度在与数字人的核心竞争力相关的多项技术上投入很大,保持了很大的研发压强,且未来还会持续投入。例如在多模交互上,百度智能云发布了智能对话平台 UNIT 7.0,它支持跨模态交互。在视觉领域,目前,百度智能云曦灵可以做到高效地生产超写实的数字人像,与传统的生产流程和速度相比,可以提升几倍甚至几十倍。
创造“希加加”、度晓晓
今年以来,希加加、度晓晓等数字人频频站上百度大型对外活动的 C 位,也不断在直播、服装等领域破圈。那么,希加加、度晓晓是如何创造出来的?这背后有什么样的技术在支撑?
成熟的制作流程
李士岩介绍,希加加和度晓晓都属于虚拟偶像这一类数字人。针对这类数字人,百度已经有了一套打磨地非常成熟的创造流程。
这是一套以技术为底座的流程。
通常先对数字人做人设定义,包括名字、技能、性格等。例如,希加加可以画画,度晓晓可以写高考作文,这些技能背后都基于百度一系列 AIGC 的能力来加持,使数字人的人设更饱满。
第二步是人像建模和人像绑定,这是目前业内花费成本较高的一步。在这一环节,百度智能云曦灵数字人平台已经实现了智能人像生成技术,使生成效率更高。
制作完人像后,第三步是互动环节。目前,虚拟偶像领域的瓶颈在于,一个虚拟偶像它必须要频繁地被使用,需要频繁地发内容。对于超写实的虚拟偶像来说,如果用传统的内容生产方式,不但成本按秒计算,生产周期也非常长。在这一方面,百度智能云曦灵已经形成了智能化、平台化的内容生产方式,以人像生产环节为例,依托百度智能云数字人人像生成引擎等技术,已经将超写实人像生成效率大幅提高,不仅能一键秒级生成六大风格的超高精人像,还提供 1358 个微调维度供用户“精雕细琢”。
第四步不断通过 AI 技术,为这两个虚拟偶像增添新的技能,比如画画、写作文等。未来,她们做的事情还会更多,还会不断丰富技能,使其人设更加饱满,更加有记忆点。
超逼真的“肉身”
超写实数字人具有类人的外观,业内很多数字人产品尤其是虚拟偶像都被塑造了超高的颜值。多次登上舞台的希加加,在形象上也做到了十分类人,五官、皮肤等非常逼真,毫发毕现,令人印象深刻。
如果采用以前游戏和电影制作中用到的传统制作方式,要做出像希加加这样写实度这么高的数字形象,制作成本较高,因为它要基于 3D 艺术家的手工加工,还做一系列复杂的绑定操作。一般平均生产出一个数字人的周期在 1-2 个月左右,对于希加加这种虚拟偶像级别的人效时间可能会更长。
李士岩介绍,对于超写实、虚拟偶像级别的数字人,百度能将其生成的时长缩减到不到一周时间。
数字人的人像生成分为三维建模和人像绑定两大阶段。实现如此大幅度的提效,需要攻克多项技术难点,包括三维模型的融合和生成技术、智能绑定技术等,这都要基于大量的 3D 和 4D 数据进行训练,学习个性化绑定、个性化表情的特征,才能将数字人智能化的生产出来。
在这些方面,百度从 2019 年到现在已经过了 3 年多的实践和积累。在智能绑定方面,百度有几乎是行业内最大的人脸的 4D 数据库,4D 数据会记录一个人在做不同表情时,在时序上,人面部每个点的肌肉变化的序列,通过大量的序列学习,能做到人脸个性化标签的智能绑定。通过这种方式能将智能生产的数字人的面部的生动性,提高到一个新的台阶。
数字人的人像质量主要看两个纬度,静态真实性和动态生动性。接下来,百度还将在数字人(特指智能生成的虚拟人)的静态写实度和动态生动性这两个维度持续深耕,通过算法优化持续的迭代。
除人像外,衣服、场景等数字资产也都是采用智能化的生成方式。希加加的服装资产,如最近在安踏时装走秀和北京国际时装周走秀中,希加加穿的服装是采用智能化生成的,比原来的生产周期低了 75% 以上,目前还在探索采用视觉技术,比如毛发自动生成技术。
“全能型”数字人
希加加、度晓晓都是全能型选手。希加加擅长作画、写诗、作曲、说多国语言、实时直播。度晓晓可以作曲作画,脱口秀、直播、写高考作文。
这些超能力离不开百度文心大模型和飞桨深度学习框架的支持。
李士岩认为,大模型是接下来一个非常重要的技术趋势。百度的大模型基于百度深度学习框架的技术为基础来进行发展。飞桨深度学习框架,提供了在上面开发深度学习模型的基础,使得开发大模型的效果和效率都有了显著提升。
如今,大模型不仅越来越多地被应用在写诗,作画这种 AI 生成的能力,同时也越来越多地用到了数字人的模型的智能生产和内容的智能生产上来。
在这两个维度,已经明显地看到了大模型所带来的很多优越性,因为它生产的内容,更接近于用户输入,描述的生产种类更多,更丰富,具有更好的扩展性。
在数字人的数字资产的内容生产方面,依托飞桨和文心大模型,百度在以下多个细分领域取得了突破。
一是播报式的内容生产,目前百度在文字、图、面部表情合成上的准确率已能达到 98.5%。例如手语数字人,它的本质是将音视频及文字跨模态的转化成数字人的手语动作。无论是手语播报,还是口语播报,本质上都属于数字人生产的第一类内容,即播报类的内容。在今年的冬奥会、两会上都有百度的虚拟主持人来实时播报节目。
数字人内容生成第二个赛道,是数字人的表演类内容的生产,比如唱歌、跳舞。目前百度 AI 数字人正在尝试做表演类内容的综艺节目。最近,爱奇艺闯关游戏真人秀《元音大冒险》正式开播,百度数字人家族希加加、林开开、叶悠悠“加盟”。他们将与常驻玩家大张伟、秦霄贤等一起进行游戏闯关和歌曲唱演,在月球上的虚拟世界 — MEMOON 元音大陆“闯关”。百度智能云曦灵也正是这一节目的数字人技术合作伙伴,并通过《元音大冒险》的“实战”,形成了数字人综艺技术底座,在保证同等效果的情况下,效率提升一倍,成本下降一半,为品牌及商业化带来双向收益。
声音处理是当前虚拟数字人的一大难点,要做到与人声的高还原度,还要让数字人唱出美妙的歌声更是非常之难。除了传统的 TTS 相关技术,百度通过文本生成声音的技术,大模型相关的技术等来让数字人说话,唱歌。在百度的 AI 开放平台上已有大量已经训练好的语音的模型,有很多声音已能够做到真假难辨。目前,这一技术已支持百度的虚拟偶像发行“单曲”。
第三类是叙事类的表演内容。不仅仅是歌舞和跳舞,涉及到带有故事情节的表演类内容时,需依靠跨模态的生成技术和分析技术。在这个方面,百度还在持续投入。相信在未来的一到两年内,可以做到部分叙事类内容的自动化生产。
多模态交互:数字人核心技术
多模态交互是各厂商在推出自家的数字人产品时,普遍强调的卖点。这也正说明,这项技术是数字人满足客户业务场景中的一项核心技术。
如何提升数字人的多模态交互能力。李士岩认为,核心在于下述关键技术点,一是与语音识别相关的技术;二是自然语言理解、对话系统相关的技术;三是视觉相关的技术。
ASR 是百度传统的优势技术,基于注意力模型的 ASR(自动语音识别)的能力,使得在开放空间内的语音识别效果、抗噪效果大幅提升。此外,NLP 也是百度的传统强项,在性能层面具有优势,比如手语数字人,本质上是利用 NLP 技术来做翻译,它将文本、语音和视频通过翻译转化成了数字人的手语来进行表达。在视觉相关的技术上,百度积累了大量的识别模型,且这些模型正在通过百度的各个产品、业务不断应用,在应用的过程中反哺这些模型,使它识别地更快、更准。
李士岩表示,这三项技术都已在百度内部形成了正向迭代的循环。百度是既具备语音,也具备语义,也具备视觉的公司。在端对端做优化和链条的能力上,百度也具备良好基础,能够应用到多模交互技术的场景,通过端对端的形式来进行优化,只有这样才能够将效果做到极致。
3D 超写实数字人怎样更节省算力?
就目前的情形看,3D 卡通数字人和 2D 数字人对算力的要求不高,无论是基于云端的服务器,还是基于本地的服务器,还是基于移动端,甚至网页端都能够渲染得比较好。
“行业所攻坚的难点应该是,3D 超写实的数字人应该怎样更加节省算力。算力的背后是客户的成本,现在 3D 超写实数字人如果要渲染得比较好,还是必须要基于一个云端的服务器,或者是一个 Work station 来,且要在里面做大量的优化”。李士岩说道。
在 3D 超高精数字人渲染的发展方向上,李士岩认为,接下来主要有两个发展趋势,一是将 3D 超高精的数字人在移动端上直接做渲染,在这方面,百度已具备一定技术。比如,将数字人带入到三川创视酒店智能营销屏赋能数字营销,超写实数字人可以在算力小的安卓设备跑起来。目前可以在三川上百家酒店看到这种硬件设备。
另一个发展趋势,百度判断,云端的分布式渲染,既保证渲染质量,又能够做到低延迟和低丢包率。百度最近发布的数字人直播平台就应用了这样的技术,它基于云做渲染,但在云端上做了很多优化和处理,使得延迟率跟丢包率都比较低。
数字人自由靠什么实现?
此前,李士岩曾谈到,“我们近两年的奋斗目标是, 通过百度智能云曦灵平台的开放, 让每个人实现数字人自由。
数字人生产平台技术架构
想要实现“人均一个”数字人,标准化产品将成为降低运营门槛的关键。
为了数字人的规模化生产,百度推出了数字人平台“百度智能云曦灵”,今年 9 月,百度智能云曦灵推出“数字明星运营平台 1.0”及“数字人直播平台 2.0”,2 个 SaaS 化平台。
曦灵的技术架构自下而上分别是:最底层是一系列的 AI 底层技术,如 ASR,TTS 、 NLP、肢体识别,声音合成等;再往上一层是人像及数字资产的生成技术,这里面既包含了人像的智能化生产、智能化绑定相关的技术,也包括数字服装的智能生产、数字场景的智能生产。再往上两类是主要应用场景化的应用平台,这两个大应用场景,一是政企服务场景,一是偏内容生产的演艺数字人场景,在这两个方向上有数字员工平台,在演艺场景,有数字明星运营平台和数字人直播平台。
“数字明星运营平台 1.0”及“数字人直播平台 2.0”基于大的曦灵”平台的架构,且完全基于云端算力来进行构造。在最底层和分布式的云端算力,再往上层是一系列的人像内容生产的组件,再往上一系列的技能组件。这些技能调用了曦灵平台最底层的一系列语音和视觉的能力。正是因为有这样的基础平台的支撑,加上云端算力的架构才能够端对端的对这两个平台的体验进行优化和打磨。
李士岩表示,行业内的大多数虚拟人,尤其是超写实的数字人的制作,在现阶段仍需要有专业的 2B 服务的团队来做端到端的长期打磨,这个过程中需要花费大量的时间、人力和制作成本以及运营等周边费用,降本提效就变得格外重要。百度智能云曦灵发布这两个平台也正是为了解决这一行业痛点。
这两个平台都是非常易用的 SaaS 软件,并且均包含云端版本,通过一个网页即可登陆,在这两个平台上操作就像操作 PPT 一样简单。在平台上可以自动化生产数字人的人像,生成后客户可以对这个人像进行超过一千个纬度的微调,包括对鼻子、眼睛,眉毛等进行各种细节调整,在生产完人像后就可以利用平台上的 AI 技术让数字人做自动化的播报和内容生产,通过一个摄像头即可实现中之人的直播内容生产,更重要的是,在夜间等闲时流量期间,还可以实现纯 AI 驱动的数字人直播。
李士岩提到,关于这两个平台,百度 AI 数字人团队还引入了一项新技术——基于单目摄像头的动捕技术。现在针对数字人,如果要进行动作捕捉,大多数情况下需要穿一套动捕服,甚至需要依赖光学模式来做,这个成本非常贵。在这两个平台上,仅通过一个几百块的摄像头就可以实现动作捕捉技术,这是这两个平台一个比较大的技术创新点。
具体而言,要想把单目动捕的技术做好,涉及到很多细节点,比如针对动作感知的模型做了大量的优化工作。比如要基于算法来构建物理引擎(指数字人的身体与具备物理特性的物体产生‘碰撞’,如人与地面接触),且做了大量优化工作保证效果。
虚拟偶像、带货直播最具商业潜力
据悉,在应用落地方面,百度 AI 数字人目前主要应用在直播、金融、广电、互娱、政务、运营商、零售等场景。
其中虚拟偶像,带货直播、虚拟主播是虚拟数字人目前相当热门的应用场景。李士岩认为,这也是数字人率先实现商业价值的领域。
“从现在看到的数据看,回归到虚拟人应用价值的第一性原理上来说,我们判断,虚拟人的价值,一方面在于它的知识和技能,但另外一个非常重要的方面就在于,要给予数字人本身生产的内容消费”。
而数字人的内容消费价值最大的两个赛道,就是虚拟偶像类和直播带货这两类场景。根一些研究机构公布的这两个赛道在未来数字人行业市场规模成长的数据看,这两个赛道所占的比重比较大。
“现在的企业无论是在产品的定义和生产,还是在营销上,都在追求的非常重要的一点是,要与它的用户不断地建立交流,建立联系。其次,品牌越来越重要了,大家都在巩固自己在用户心中的品牌心智。数字人在上述层面都能发挥非常重要的作用”,李士岩表示。
从品牌角度,百度认为,一个符合企业品牌气质的数字人形象,更能帮助企业增强它的品牌在用户心智中的作用。据李士岩观察,今年,能看到,大量的品牌都采用了数字人的形象来做品牌大使,这一方面反映出,现在品牌在营销的领域正在拥抱数字人这一类为代表的新内容。同时也反映出,企业在将品牌心智注入它的用户的方法上,也越来越多希望通过采用数字人这种更加人性化的方式。在与用户的交流方面,虚拟人具有的人性化、高并发、7×24 小时无休的特征,恰好满足了企业长期与其用户建立反馈闭环的强诉求。
SaaS 和订阅将成重要商业模式
李士岩认为,SaaS 和订阅会是数字人非常重要的商业模式。
“百度认为只有 SaaS 化的产品才是在本质上跟客户实现共赢的,因为它的本质是按用量来收费,按用量来收费的本质是,为用户创造的价值越多,就能更多的创造利润,这在本质上实现了和客户的共赢。SaaS 的发展方向是我们会坚决做、坚决投入的一个方向”。
目前,百度智能云希望,基于数字人以及周边一系列的技术来赋能 B 端客户,包括金融、广电、互联网、运营商行业等。
百度认为,数字人除了能服务于 B 端企业之外,在未来也有更多发展前景。一方面,伴随着计算平台的迭代,分布式云端渲染技术的发展,数字人会由 B 端逐步向 C 端扩展。百度期望数字人的未来首先在 2B 的场景下可以为用户在智能营销、智能服务、智能内容生产等维度创造价值。
从更长远来看,百度的判断是,在未来基于空间计算和平台里面,数字人是每个人进入到空间计算平台里的通行证,能帮人们更好地开展社交,表达自我。同时,数字人也会是空间计算平台内一个新的服务载体,也会是一类新的主要内容,但它的内容呈现的形式以互动的方式为主。
采访嘉宾介绍
李士岩,百度数字人与机器人业务负责人。百度数字人与机器人业务负责人,从事人工智能相关产品设计、研发、运营 10 余年,主导了百度智能云机器人和数字人的早期研发与运营,形成了完备的商业化产品矩阵。设计专业背景,曾获“光华龙腾中国服务设计十代杰出青年”和 红点、Adesign 等奖项。