呆兔科技是一个致力于拓宽 AI 数字人能力边界的团队,希望通过提供通用的数字人驱动引擎帮助开发者快速接入高智能 AI 数字人,降低开发成本。
在 Unity 技术开放日北京站黑马训练营专场中,北京呆兔科技有限公司创始人付则宇带来《肢体动作生成引擎在 AI 数字人对话场景中的探索与实践》主题分享。这次分享是对今年杭州 Unity User Group 活动上浙江传媒学院张帆老师 基于扩散模型实现语音驱动数字人动作生成研究项目 的扩充,展现了团队对 AI 生成数字人声音、表情、动作等多维度探索,以及对行业的整体认识。
付则宇:我是呆兔科技的付则宇,今天和大家分享肢体动作生成在 AI 数字人对话场景中的探索与实践。主要讲两个事情,一个是 AI 数字人,第二个是肢体动作生成。
右边是我们 4 月份对外发布的行业报告,大家可以扫一下二维码,这是我们对整个行业的回顾。

AI 数字人行业洞察

2018年、2019年我们就在探索 AI 数字人相关的事情。我们在学校做了校园录课工具,老师边讲课边记录视音频,课后就有 AI 数字人的视频呈现。2020 年升级为 SaaS 工具,我们做了基于音频生成口型的主播项目。
去年年中,我们总结了这样一个图, 为什么 AI 数字人行业会有机会?因为数字人本身是脱胎于游戏的技术 。最初数字人建模、驱动动画都是依赖人工做的,规模化能力低;2018年、2019 年元宇宙、AI 等概念兴起,开始有了智能技术,比如音频驱动表情,让数字人制作流程变得更简单。也出现了数字人独立的应用平台,比如我们之前做的 SaaS 平台等,方便制作交互型的 AI 数字人。
2019年—2022年期间,我们认为整个行业处在比较低谷的状态。这时出现的 AI 数字人确实有一定规模化的能力,包括 AI Talk,但它的表现其实并没有那么让用户满意。用户看多了未必会持续喜欢它,这里面到底出现了哪些问题呢?
根据我们的总结,刚刚说的这类 AI 数字人主要还是播报型的 AI 数字人。而还有一类是交互型 AI 数字人。播报型是单向输出视频,交互型可以一对一沟通;播报型数字人文本和音频可以预先定义好,比如 AI Talk 是 GPT 生成好之后再转成音频,再驱动 2D 图片,而交互型数字人所有内容、文本、音频、表情、肢体都必须是程序驱动,这是二者生态上的区别。
我们更在意的是交互型数字人。 播报型数字人本质上是拼创意 ,好的创意能一时带起一波流量,但制作门槛低,会有一大批人迅速规模化复制,创意就不再有新奇性。 而交互 AI 数字人解决的不是创意的问题,解决的是人跟信息、跟机器沟通的事情 ,要拼它本身的表现,让 AI 数字人实现真人对话的效果。
这里面我们认为有四个要素比较重要,第一个是文本生成,第二个是音频,然后是表情和动作。很长一段时间里,在 GPT 出现之前我们认为 AI 数字人是比较弱智的,根本原因是它回答的内容不够智能。GPT 出来之后文本内容生成基础被解决了,TTS、表情生成、音频驱动表情就变得格外重要了。
GPT 出现之后,我们觉得这个行业能起来,因为它可能会 自然解锁真正规模化的对话场景 ,这就比以前靠销售驱动的 B 端,大 G 端场景多得多,比如教育、游戏、陪伴、咨询。
今年,我们更新了 AI 数字人行业局势变化图。我们之前处在一个稳态向另外一个稳态过渡中间的低谷,那个低谷是低智能 AI 数字人的区间。现在 GPT 的催化加速引导我们向高智能 AI 数字人迈进,解锁越来越丰富的规模化场景。我们希望能为这些场景提供 AI 数字人驱动引擎。

AI 数字人动作生成

第二个话题谈谈 AI 数字人的动作生成。文本生成解决了数字人最基础的东西,在音频和表情生成上也都有比较成熟的组件。比如音频我们看到 “AI 孙燕姿”这样的基于 TTS 合成的效果,在表情智能上像英伟达在业内做得比较好,很多公司也有自己的驱动方案。
但动作生成一直都没有非常好的解决方案。比如,游戏里面常用的 NPC 对话可能是放一个循环动画和基于状态机的动作来回调,不像真人讲话时有很自然的肢体表达。
传统动画制作流程比较依赖动作捕捉,流程很繁琐,要买设备、租设备,要聘请演员,现场调试、演员录制动作的过程也非常麻烦,还需要动画师再次修。有了基于视觉的动捕后,流程会相对简单一些,但是整个流程依然摆脱不了人工做动画的过程。 我们希望把音频给进来后直接智能生成演讲动作,可以减少很大一部分工作量。
当然,这里并不是说要取代动捕。我们解决的是很特殊的动作—— Co-Speech Animation ,在演讲、游戏 NPC 和 AI 数字人交互中都会用到。动作生成主要是两条路线,一条是基于规则的。早期很多学者从规则研究起,即手势怎么产生、动作怎么产生,从心理学角度进行研究。基于规则的路线需要人工定义大量的规则,本质上是基于状态机的切换。但 Co-Speech Animation 的难做之处在于调取动作的状态和说话内容状态、节奏、语义要有比较好的吻合,这跟游戏预先设计好的动作、组合不一样。每次说话的内容、音频语义不一样,要在这些动作之间做基于状态机的组合就很难做得非常好。
演进到最近五六年,开始有了基于深度学习的这条路线。常见做法是把几十个小时的动作捕捉数据和演员边做动捕边说话的数据一起训练,生成类似的表现。这条路线是从2016年、2017年开始有,最近两三年开始有一些比较大的突破,但在业界的应用目前还比较有限。
在今年杭州的 UUG 中,我们团队的老 Unity 人张帆老师分享了他基于深度学习做手势合成的 Demo。这个数据集是国外手势生成领域比较权威的数据集 Trinity,可以看出动作节奏和说话者的音频有一些拟合。张帆老师对动作生成原理进行了更详尽的描述,可以在 此前的分享文章 中阅读。
图注:张帆等 DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion Model 项目 Demo
基于深度学习的和基于规则的路线我们都在做,这两者都有可取的地方,但同时又都有局限。基于规则的动作更细腻,我们把原理片段录好,设计好规则和过渡条件,动作本身质量就是很高的;而基于深度学习的节奏韵律会比较好,动作动的程度和音频节拍卡点会比较好。换句话讲,这两者的优点和缺点刚好是对方的缺点和优点。
我们最近也在尝试融合两者的优点来做新的架构,如果把文本、音频、表情、肢体等整个连在一起的 AI 数字人驱动引擎提供出来,将能让开发者更方便地驱动数字角色,使它们的动作更像真人,这是我们最想实现的一点。
最后感谢 Unity 黑马计划 。Unity 是我们上大学时候就接触的引擎,2017年、2018年、2019年我们作为志愿者参与到 Unity 大会中,能作为分享的演讲者来分享我们的工作觉得特别荣幸,希望我们的工具能让 Unity 开发者的数字人有更好的表现,谢谢。

现场交流

王巍: (Unity中国-产品vp,曾工作于联想研究院、蜂巢游戏、小米游戏等,并作为连续创业者工作多年)
提问:你们做的是通用模型吗?还是针对不同的演讲者会有不同的动作风格?
付则宇 :我们会有不同的风格,要让演员专门录下来,照着这个风格做一遍。我们要构建很大的、风格各异且让观看者感到舒服的肢体风格库,交给用户自己去选。
张诗洁: (NVIDIA 初创加速计划经理,有17年计算机产品与解决方案经验,先后在惠普、IBM负责数据中心、专业图形图像、VR相关解决方案和业务推广,以及合作伙伴联盟工作)
很高兴咱们关注这方面的产品和技术,NVIDIA 想把 Omniverse 打造成集大成的开放平台,底层可以有多 GPU 算力最好的优化支持,上层会集成越来越多 AI 相关工具应用。特别欢迎咱们自己的解决方案和软件能够打通和 OV 的连接,向全球进行推广,希望后面我们有更多机会交流。
薛克娜: (微软云大中华区游戏及数字原生资深产品市场经理,负责微软云Azure及Microsoft Game Dev在大中华区游戏和数字原生领域的整体业务战略制定,产品策略及推广,致力于赋能游戏开发者通过微软全球游戏生态取得成功。之前曾就职于AWS,有14年云计算、互联网、游戏领域管理、市场及战略合作经验)
我来自微软云和 AI 事业部。 AI 数字人这个技术能应用在多广泛的场景上取决于每个模块的能力发展到什么程度,是不是符合场景的预期。 不同场景预期可能不一样,比如 GPT 文本内容生成可能已经超出了人的预期;关于音频的生成,过去我们看到很多人尝试 AI 数字人的定制化声音,但没有大规模推开,也是取决于技术应用度没有很高。微软在探索只需几秒声音就可以复刻不同语言、不同音色的黑科技,可以让大家在音频方面更易用、快捷,成本更低。再加上动作、表情方面的不断成熟,很快可以在很多领域有更广泛的应用。
杨凌嘉: (苏田资本投资总监,专注文化投资和TMT领域的投资和投后管理,致力于发掘早期的优秀开发者和创业团队。主导投资成都极光猫、上海苏诺里,深圳虎悦互动,上海探鲟游戏,成都衔环蛇网络,方宇宙(深圳),广州南斋等游戏项目)
我们是做投资的,想从投资的角度分享一下我的观点。从 AIGC 爆火以来,我们也看过很多类似的项目,跟大机构也聊过他们想要什么样的项目。我的建议是 AI 数字人要尽量想清楚应用在什么地方,是 toB 还是 toC。 GPT 在各行各业应用层上面帮助很多东西提高了效率,AI 数字人也应一样,做的时候就要想清楚在什么地方应用、卖给谁来用,这样才能帮助你们在后期融资等阶段达成更切实落地的成果。
付则宇: 谢谢,这个问题我们想了很久。我们认为现在 “AI 数字人到底解决了什么问题” 这个事情行业都没有讲清楚,它是否是真需求我们都很怀疑。 AI 数字人的价值到底在哪儿?它最终要能够实现人的表现力,现在离这一点还很远很远。 目前我们看到 AI 数字人更多像是一层 UI,而不是真的解决实质问题。我们希望通过提供一个好的驱动引擎,能够帮助更多开发者或者企业找到一些有意思的应用场景,加速 AI 数字人的进化过程。
Logo

分享前沿Unity技术干货和开发经验,精彩的Unity活动和社区相关信息

更多推荐