在元宇宙里做「基建」，Cocos想让虚拟人快速「量产」_信息

2022-11-28 14:38:40 来源 : AI前线

采访嘉宾 | 倪飞，Cocos 虚拟角色项目团队负责人

(资料图片仅供参考)

策划 | 刘燕

在元宇宙风潮之下，数字人先火了。近两年，国内数字人项目呈现井喷态势。IDC 预计，到 2026 年中国 AI 数字人市场规模将达到 102.4 亿元。作为时下最热的技术话题，我们判断，开发者有必要对数字人技术有完整的认知和理解。

在此背景下，InfoQ 特别策划了《数字人基础技术解析》专题。本专题将首先对数字人做概要介绍，紧接着围绕数字人的技术、应用落地等维度分别做解读。我们将收集来自国内业界一流团队的最佳实践，供读者参考。本文是本专题的行业落地篇。

在数字人生产全产业链中，以 Cocos 为代表的 3D 引擎厂商，处在产业链中偏工具和服务的环节。近日，Cocos 虚拟角色项目团队负责人倪飞接受了 InfoQ 专访，详细介绍了这家老牌 3D 引擎在虚拟角色构建上的技术创新以及应用落地实践。

老牌 3D 引擎入局虚拟数字人

当前，元宇宙的话题度无疑空前高涨，正迅速攀升为顶流概念。

在不久前 Gartner 发布的 2023 年十大战略技术趋势中，元宇宙技术上榜。Gartner 将元宇宙定义为：由虚拟技术增强的物理和数字现实融合而成的集体虚拟共享空间。

元宇宙火爆之下，虚拟人作为元宇宙的场景入口与连接纽带也备受瞩关注。艾媒咨询发布的《2022-2023 年中国虚拟人行业深度研究及投资价值分析报告》中提到，2020-2021 年，虚拟人相关企业数量逐渐呈现快速增长趋势。

目前，海内外的厂商正在加快布局虚拟人赛道，尤其是巨头厂商正在占得先机。

近两年，知名 3D 引擎 Cocos 将“触角”延伸到了虚拟角色领域。Cocos CEO 林顺十分看好元宇宙的发展，他认为元宇宙技术带来的颠覆性改革，或许可以媲美上一个软硬结合的划时代发明 — 互联网。林顺认为，元宇宙有三种呈现形态：虚拟空间、增强现实、平行世界。而不论是哪一种呈现形态，不管是哪一种虚拟世界，都需要一个强大的 3D 技术作支撑。

3D 技术正是 Cocos 的擅长领域，Cocos 在该领域已有数年技术积累，凭此入局元宇宙已是水到渠成，Cocos 更是直接成立了虚拟角色项目团队。

近日，Cocos 虚拟角色项目团队负责人倪飞接受了 InfoQ 专访，详细介绍了这家老牌 3D 引擎在虚拟角色构建上的技术创新和应用落地实践。

在虚拟数字人产业链中，基础层为其提供必要的软件和硬件支撑；平台层为其制作及开发提供技术，连接技术和服务使之呈现出不同的虚拟人样态；应用层令虚拟数字人在各领域应用实践。

倪飞认为，无论虚拟角色未来会发展成什么样的应用形态，其底层是通用的工具化的能力。像 Cocos 这样长期致力于工具开发和技术能力赋能的厂商，处在虚拟数字人全产业链中偏工具和服务的环节。Cocos 更擅长做工具赋能，将工具做好赋能给第三方厂商使用。

如何在低算力终端中运行虚拟角色，是一个十分复杂的难题，需要专业积淀和积累。凭借过往在渲染层、移动端适配、工具化等方面沉淀多年的丰富技术经验，Cocos 试图让这一问题简单化。而这些经验也成为 Cocos 进入虚拟角色领域的底气和优势。

“面向未来的 3D 化交互，大致分为人、事物、组织在 3D 空间里的活动。Cocos 从发散的数字孪生的逻辑，收敛到数字孪生中的“人”的部分，我们团队专注于通过虚拟角色构建来推动数字孪生，以及未来面向未来的 3D 交互”。

如何创建一个全周期的虚拟角色？

基于沉淀多年的引擎底层技术能力和与开发实践经验，Cocos 为开发者提供了多个低门槛、高效率、跨平台的虚拟内容生产工具，降低整个生产链路和实际发布链路的成本和门槛，为行业提供覆盖虚拟角色创作、使用全生命周期的虚拟角色产品线。

自研多项虚拟角色编辑工具

如何既能让虚拟角色动起来，又具有性格，且能够跨平台进行交互，具有相当高的技术门槛，Cocos 希望用自身擅长的工具化能力将技术门槛降下来。

针对虚拟角色制作，目前 Cocos 已自研了 Cocos Creator、Cocos Persona Editor 编辑器、Cocos Avatar SDK 等多款虚拟角色编辑工具。

Cocos 认为，虚拟角色涵盖的范畴大于数字人。目前，整个虚拟角色行业分布的大类是写实、卡通和二次元，其中，写实虚拟数字人是当下的主流方向。倪飞介绍，写实数字人、卡通数字人、二次元数字人等人形的角色都是 Cocos 的工具支持的方向，希望这些工具能够支持美术创作者自定义生产写实类或卡通类、二次元类的虚拟角色。

今年 8 月，Cocos 发布了 Creator 3.6 版本，这一版本被官方称为是 Cocos 近两年来最重要的版本，在画面渲染、性能、原生化、编辑器优化等方面都做了大幅进化。在 3.6 版本中，引擎在 3D & 2D 开发上体验更好、性能更高、效果更出众。

倪飞介绍，Creator 3.6 版本做了更易用的封装和升级，引入了动画系统，增加了对材质和光照模型进行优化等新功能，这一新版本引擎的发布能够提高虚拟角色的表现效果，让虚拟角色呈现出的光影更加真实。

目前，Cocos Persona Editor 编辑器，Cocos Avatar SDK 正在紧锣密鼓地开发中，预计不久后将正式推出。

采访中，倪飞向 InfoQ 透露了上述工具的一些核心功能。Cocos Avatar SDK 的核心逻辑是快速让 B 端用户拥有创建、操作虚拟角色的能力，SDK 已经适配了安卓、iOS 、H5、微信小程序 / 小游戏端，可以直接嵌入到 APP 内，实现流量的闭环，为用户提供更好的体验，据悉目前市场上已经有知名 APP 采用了 Cocos 的这套 SDK 逻辑。

Cocos Avatar SDK 最核心的三个特点是高性能、可热更、易使用。它提供了 SaaS 化美术素材托管与热更服，通过对“指定素材的分发、热更 +SDK 展现 + 编辑器快速编辑”的逻辑，Cocos 形成了一个开箱即用的虚拟角色创建、展示能力工具集。不仅能够让传统的软件开发商无需追加 3D 开发人员即可立即拥有虚拟角色的加载、替换、捏脸、换装、插入视频播放、替换 2/3D 背景 & 场景、3D 空间音频等能力，而且内置动捕、面捕、WAV 口型播报等 AI 能力，能够接收本地 / 远程的结构化数据，驱动虚拟人进行表情、动作、口型、特效等表演。

Cocos 虚拟角色编辑器预览

Cocos Persona Editor 编辑器的逻辑是，从预制模型到直接输出，内部已预制了多种不同风格的虚拟角色的基础模型，提供了 200 多个参数，包括脸型、服装、道具、妆容、鞋子、配饰等，用户可以通过预设的参数创建虚拟角色。与创建游戏角色的逻辑类似，通过 Cocos Persona Editor 编辑器，用户选择想要的美术风格，选择想要的虚拟角色的类型，再进行捏脸，选择动作、表情等，就可以输出一个虚拟角色。

渲染、AI 接入五大关键技术

据悉，目前 Cocos 基于虚拟人已实现了建模、口型、动捕、渲染、AI 接入五大关键技术。

高度自定义角色编辑 &AI 建模

预置角色模型拥有多达 263 个脸部、身体调节系数，支持用户自主开发独一无二的虚拟形象。同时 AI 建模技术能让用户利用照片快捷生成真人数字化身。

实时渲染

渲染能力对虚拟角色来说非常重要，这也是 Cocos 引擎所提供的一项基础能力。

渲染分非实时渲染和实时渲染两种逻辑。以前影视剧、动画中逼真、漂亮的虚拟角色，大多是离线，非实时渲染出来的，先给虚拟角色做好 3D 模型，再在离线渲染器中渲染出来。这类虚拟角色的存储格式是视频，交互较困难，无法做到和人进行交互。

如果希望虚拟角色能够像真人一样说话，并展现相应的表情和体态动作，让人觉得是舒服、有温度的交流，这就需要有实时渲染的能力。现在大量数字人应用场景里的虚拟助手、身份 IP、偶像 IP 等，都要求虚拟角色被实时渲染出来，且能够被驱动起来，包括脸部驱动、身体、动作、手势驱动等。让虚拟角色在移动端能够跑起来且能够跟人做实时交互，这也需要用较小的算力把虚拟角色渲染出来。此外，在虚拟角色应用的场景里，如在虚拟角色在元宇宙里开会、办公、展览等，这些场景实现都依赖实时渲染能力。

与卡通、二次元类的虚拟角色相比，写实的虚拟角色对渲染管线的要求更高，且需要采用不同的渲染技术，如次表面反射、双向反射分布函数等。Creator 3.6 版本在 3D 画面渲染能力上，重点优化了对 3D 内容非常重要的材质导入功能与渲染算法，包括了 Surface Shader 自定义材质、CSM 级联阴影、各向异性光照模型、GGX 环境反射卷积图等重点功能。

人物动态捕捉及采集技术

骨骼动画重定向后能让虚拟人拥有无限的动作表现潜能。一张照片、一段视频，无需专业动捕演员，你的虚拟形象便能拥有精彩的动作表现。

Cocos 已经实现了用通用摄像头进行中低精度动作捕捉。基于视觉的动作捕捉分为 TOF、激光、基于 RGB-D 摄像头和直接基于普通的 RGB 的摄像头做形象、图像等信息采集。

目前 Cocos 正在尝试通过 RGB-D 的摄像头采集数据进行 AI 训练解决动作捕捉遮挡定位与 3D 空间关系问题。基于 AI 训练能够自动补全视觉当中图像未可见部分的手部、脚部等 3D 空间位置，自动预判躯干前后遮挡关系。

面部系统捕捉技

Cocos 实现了高精度实时表情捕捉技术，利用大量视频数据来训练模型，最终产生高质量的连续变形体（Blendshape）权值输出，用于驱动完整的虚拟角色，实时表情捕捉效果与离线效果相近，可实现高精度捕捉。

基于人工标注的脸部数据、拟真的渲染数据进行机器学习训练，将采集到的语音播报和人脸数据进行学习后，输出学习模型，实现面部捕捉。

Cocos 虚拟角色面部捕捉技术演示

口型驱动技术

语音口型驱动是通过对音频中的音素进行识别，通过大量的数据 AI 训练模型，以 mesh 变换的形式驱动 3D 人物口型，从而达到高拟真语音播报。

AI 骨骼绑定技术

完善的骨骼标准及骨骼重定向是驱动人物的关键，丰富的动作库能够快速提升制作效率。

当前 Cocos 正在内部测试可视化的人体骨骼快速绑定功能，实现导入模型与标准骨骼的快速绑定，从而快速适配 Cocos 动作库中的动作，驱动人物在相关场景中使用。

针对解决虚拟角色构建难点，面向移动端发力

超写实虚拟人的一大特点就具有类人的外观，业内很多虚拟人产品尤其是虚拟偶像都被赋予了超高的颜值，而且在五官、皮肤等方面十分逼真，例如发丝都清晰可见。但类人程度越高，算力就是一大难点。

在传统的虚拟角色生产逻辑中，一个虚拟角色模型四面导出后，可能光头发就几千万面。在手机端，很难有如此庞大的算力可以带动几千万面的头发实现“丝毫毕现”的飘动效果。

倪飞表示，针对这一难题，Cocos 现在集中在移动端发力，在移动端做了大量的技术优化，采用“面片”的逻辑将虚拟角色的头发输出，从而实现了飘动、毫发毕现等头发细节的生动展现，支持按照不同性能机型，选择虚拟角色渲染策略。当前虚拟角色已经能够在手机端进行下图级别卡通写实人物的实时渲染，在骁龙 865 机型上保持 30 万面左右 60FPS 的同时，进行面捕捕捉和捏脸换装。

倪飞提到，除了头发，服装的飘动、仿真也是业界的一大痛点。如何让服装动起来，例如在虚拟角色跳舞时实现裙子飘动，这类基础问题在业内已有各种实现方案。但让虚拟角色的服装呈现出纯物理世界的形态，逼真地将真实世界中衣服的动态还原出来，当下还是一个很难实现的问题，尤其在移动端的实现格外困难。

接下来，Cocos 还将在移动端上持续发力，让开发者不仅可以创造足够逼真的 3D 形象，而且能在最小的算力范围内，达到最优的虚拟人效果，实现覆盖大多数低算力设备及操作系统。

虚拟人应用和规模化落地

支持企业按需定制虚拟人

针对不同行业对虚拟人的差异化需求，Cocos 推出了可快速接入的 Cocos Avatar SDK，以及虚拟角色编辑器 Cocos Persona Editor，支持企业“按需定制”虚拟人，并为企业提供标准化的服务，帮助其降低时间成本和制作成本。企业可以标准化地生产自己需要的虚拟角色，并将其应用到相应的场景中去。

在实际的落地项目中，Cocos 多样化的功能支持能帮助虚拟人拓宽更多使用场景，比如 Cocos 支持灵活加载视频，搭配虚拟角色，能很好满足线上会议、文旅游览等场景需求。又比如，Cocos 还支持对本地渲染结果反向进行纹理输出，能够实现一次输出视频、满足多端使用，大大提升了效率。同时，Cocos 支持热更新及按需分包远程加载，保证 SDK 首包足够小，有效提升了各个场景中用户的浏览体验与留存率，这样可以让虚拟人更好地跑在各种终端上。

据了解，Cocos 正在与一些厂商合作，助其实现虚拟数字人应用落地。例如，Cocos 与声网就虚拟人项目达成合作，共同搭建 SDK，推出了功能丰富的元娱乐解决方案，帮助开发者集成后完成自己的内容创作。而在百度元宇宙解决方案“希壤 Lite"里面，则整套技术都是采用 Cocos 的方案。

希壤 Lite

值得注意的是，当下，应用场景受限是当前虚拟数字人在应用过程中存在较为普遍的一个问题。

“我们目前看到的客户两三年以前就有做虚拟角色的了，但做完虚拟角色之后他们也在发愁—— 做了一个超写实的虚拟角色，买了七八万的设备，就只是在发布会上用一下，其他地方用不了。这个虚拟角色到底能干嘛？他们也挺愁的”。

倪飞表示，对于这些用户的痛点，Cocos 给出的解法是，让这些虚拟角色在 Cocos 的引擎里做二次加工，让它的效果在基本保持一致的情况下，能在移动端、计算类端、小程序端，小游戏端跑起来。再往后可以架设自己的角色服务能力。例如，可以让虚拟角色具备对话能力，成为虚拟客服。或者，让虚拟角色后面接中之人，让它具备直播的能力。或者，让虚拟人直接运行在电视大屏幕、投影屏幕等，让虚拟角色在应用场景中与人类用户沟通交流；或者应用在车机场景，将虚拟角色与车机内的系统深度绑定，让它担任车内的智能助手等。

“这都是现在行业里已经存在的逻辑，只是看厂商有多大的投入决心，愿意投入多少技术去解决这类问题”，倪飞说，“现在已经看到一些服装厂商对虚拟角色表现出了较大的兴趣和偏好”。

批量化生产未来会成为普遍现实

倪飞认为，尽管每家厂商在虚拟人制作上的逻辑不完全一致，但未来，虚拟角色的生产将成为非常普遍的现象，无论批量生产是基于现有素材的重组，还是基于 AI 生成，还是基于条件的，抑或是基于其他的逻辑。

“批量生产，本质上是未来的一个通用的需求。之所以是一个通用的需求, 是因为我们需要在各种场景里去丰富“路人甲乙丙丁”，以让整个虚拟世界里，看起来是更拟真的”。

虚拟角色的商业化已在进行中

可以看到，虚拟数字人已经被应用在各种应用场景中。

现阶段，虚拟数字人还在发展的早期，谈商业化还为时尚早。但根据倪飞的观察，业内已有一些提供数字人服务的团队，实现了小规模盈利。此外，在数字人的制作环节，原先做 2D 动画的厂商在转向做 3D 动画后，生产流程发生了很大改变，生产效率也大幅提升。

有人认为，虚拟数字人将是元宇宙率先实现盈利的领域。倪飞认为，虚拟角色将会是未来元宇宙里基数最大的，也是最通用的一个领域。因为，未来，每个人都会有自己的虚拟化身，如果未来信息交互的入口发生了改变，由原来的文字变成形象、语音、图片、视频推送的交互的流，虚拟数字人在所有的应用领域都会存在，到时候它将变成一个非常基础的应用。

倪飞认为，当虚拟人成为所有应用领域的基础形象后，在虚拟人之上，一定会产生新的与之强相关的业务，例如，在各个应用间的虚拟角色可能会产生联通互动的社交需求等。这些都蕴含着潜在的机会和商业价值。

采访嘉宾介绍：

倪飞，Cocos 虚拟角色项目总监。2020 年加入 Cocos 团队。擅长数字孪生及大系统构建，致力于工具赋能创作者，实现”有趣地做人，做有趣的人“的产品理念。目前正在带领团队构建 Cocos Avatar SDK、Cocos Persona Editor 编辑器、虚拟角色创作社区，为行业提供覆盖虚拟角色创作 & 使用全生命周期的虚拟角色产品线。

标签：动作捕捉