进军“元宇宙”第一步,先造个虚拟人。
注意,虚拟数字人已经开始“入侵”我们的生活了!不知道你有没有发现,我们的生活中出现了不少虚拟数字人的身影。
9 月 22 日,小红书推出了“潮流数字时代”计划,推广一批虚拟数字人作为博主发布笔记;B站专门为虚拟主播开设了分区;湖南卫视的小漾将作为首个虚拟主持人出现在电视屏幕上,这些信息都透露着虚拟数字人市场正在升温。
▲ 虚拟数字人 CELIX 走秀现场
不仅如此,近一个月在科技圈内不但有 OPPO 发布了自己的首个虚拟数字人小布,而且腾讯也推出了 3D 超写实等五种数智人,国外英伟达甚至还“偷偷”造了个迷你版的黄世勋 —— 虚拟数字人 Toy-Me。
▲ 从左到右分别为英伟达 Toy-Me;OPPO 虚拟数字人小布;腾讯五款数智人;乐华娱乐旗下的虚拟偶像女团 A-SOUL
这些形态各异的虚拟形象都属于虚拟数字人吗?事实上目前行业内关于虚拟人、数字人又或者是虚拟数字人这些概念,还处于一个各自为战的状态。
目前,比较官方的定义来自中国人工智能产业发展联盟首次发布的《2020 年虚拟数字人发展白皮书》报告。报告提到,虚拟数字人指具有数字化外形的虚拟人物,将依赖显示设备存在,并且拥有人的外貌(长的像人)、人的行为(能说话、能举手、能做鬼脸)以及人的思想(能与人交流)。
有行业报告显示,2020 年中国虚拟数字人行业市场规模约 2000 亿元,未来随着市场接受度拓宽,2030 年中国虚拟数字人市场规模将达 2700 亿元。
虚拟数字人不但成为科技公司角逐的蓝海市场,而且也成为文娱行业“接轨”元宇宙的新方向。虚拟数字人到底指什么?它的背后有哪些技术成为支撑?虚拟数字人真的会是元宇宙赛道的新风口吗?
带着这些问题,智东西与国内动捕巨头公司诺亦腾 CEO 戴若犁、虚拟数字人公司创幻科技 CEO 陈坚等相关的行业人士进行了深入交流,看到了虚拟数字人背后的技术支撑和落地情况。
真假虚拟数字人,你分得清吗?谈起虚拟数字人,你的脑海里会呈现出谁的样子,是出现在春晚上的虚拟歌姬洛天依,还是清华的虚拟学生华智冰,又或者是你手机里软萌可爱的虚拟语音助手,甚至还有可能是B站上唱跳俱佳的虚拟主播们。
▲ 不同类型的虚拟数字人代表
虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互 5 个模块构成,其中,人物形象分为卡通、拟人、写实、超写实等风格,像虚拟网红翎 Ling 这类就属于超写实虚拟人,而交互模块中可以分成交互型虚拟数字人和非交互型虚拟数字人。
▲ 智东西整理 来源:《2020 年虚拟数字人发展白皮书》
根据虚拟数字人不同的核心交互方式,虚拟数字人分为智能驱动型虚拟数字人和真人驱动型虚拟数字人。
智能驱动型虚拟数字人是以深度学习技术为主,本质上还是某种算法,但会拥有一个定制化的虚拟外表。他们主要以“数字化”为核心,像是初音未来、小布以及华智冰分别在文娱、语音助手、教学领域应用的成果。
▲ 英伟达 CEO 黄世勋的虚拟形象 Toy-Me 正在与人交流
真人驱动型虚拟数字人是以真人为核心,用户可以通过 3D 建模、动作捕捉技术、渲染等技术,在网络上形成一个自己的虚拟化身。比如说,B站里的部分虚拟主播们通过动作捕捉平台,建立自己的虚拟形象,并以虚拟形象的方式与其他用户互动或者表演。
▲ B站虚拟主播超次元次元酱表演秀
在创幻科技 CEO 陈坚看来,只有能完成实时互动的才能称的上是虚拟数字人。“现在一些虚拟数字人的概念还是通过视频和照片为主,这种不能算作真正的虚拟数字人。”
他同时还说道,只要具有实时互动功能的数字人都有价值空间,也会成为元宇宙的重要组成部分。从短期来看,智能驱动型虚拟数字人,像虚拟客服、虚拟主持人、虚拟导游都在企业市场拥有广泛的应用空间,但是从长远的爆发力来说,以真人驱动的虚拟数字人才是元宇宙的核心入口。
他举了个例子,日本 Virtual Market 用了三年的时间举办了六届虚拟漫展,参与人数远高于国内的 China Joy 动漫展。“未来每个人都会在 3D 互联网中拥有自己的虚拟身份,当大家可以开始虚拟逛街、虚拟逛展时,就会拥有(比智能驱动型数字人)更大的应用空间”。
▲ 日本虚拟漫展 Virtual Market6 展会现场
讲完了虚拟数字人的基本概念,我们来看看虚拟数字人究竟是什么样子?
在虚拟数字人刚起步的阶段,由于渲染技术、网速等原因常常会出现虚拟数字人突然“死机”,又或者呈现表情生硬、肢体不协调等情况,导致虚拟数字人往往都走在各类“翻车”的路上。
比如说,在天气预报的直播现场虚拟主持人突然 360 度来了个失败的“托马斯全旋”。
又或者是这样,在虚拟偶像综艺现场,由于计算能力和渲染能力的不足,几个虚拟偶像突然开始表演“千手观音”,场面一度很鬼畜。
▲ 国内虚拟偶像综艺直播现场
从这些事故画面中能看到,尽管虚拟数字人已经在不同领域拥有了自己的应用场景,但是在技术上还仍未成熟。
后来,随着研发人员不断尝试新的技术,尤其是在动作捕捉技术上的突破,现在的虚拟数字人可以借助 VR 设备,与用户实时互动交流,不但能唱歌聊天,还能跳舞,在互动上呈现了多样的方式。
▲ 虚拟偶像远程互动
比如说,用户可以通过佩戴 VR 设备(左上角),直接与虚拟偶像泠鸢 yousa 实时互动。而上面这个二次元人物的背后,正是虚拟泠鸢 yousa 佩戴者相应的动捕设备,做出相应的举动。
我们可以看到,虚拟数字人目前可以简单分为以真人驱动和以数字驱动的两种形式。其中,以真人驱动的虚拟数字人逐步克服了此前的肢体语言单一,面部表情单一等特点,开始拥有更加活灵活现的数字形象。
据目前落地的结果来看,打造一个虚拟数字人,不仅在创建准备环节有所难度,而且如何在多个虚拟人演出的时候实现实时渲染、以及及时调整人物渲染的细节等方面同样面临着一定的挑战。
打破两大技术壁垒,虚拟数字人如何更像“人”?倒退十年,你如果想给自己打造一个虚拟形象,可能需要花费数十万元去买专门的设备,聘请专门的拍摄团队才能拥有一个活灵活现的虚拟形象,但现在你可能通过一台电脑就能为自己打造一个简易的虚拟化身。
B站CEO 陈睿在哔哩哔哩周年演讲时提到,在过去的一年里共有超过 32000 名虚拟主播在B站开播,同比增长 40%,虚拟主播已经成为B站直播领域增长最快的品类。
这一切都要归功于研发人员在制造虚拟数字人的两大重要环节 —— 动作捕捉技术和渲染技术上做出的突破。
▲ B站虚拟主播分区
1、解构四大动作捕捉方案,最高可实现毫米级误差
如何让虚拟数字人更加生动?动作捕捉方案是其中的关键要点。动作捕捉是指通过数字手段记录现实人们的运动过程。过去的一些科幻电影和游戏中,人们常常通过基于摄像机的动作捕捉系统完成对于一些科幻角色的塑造。同时,动作捕捉系统根据实现原理的不同,可以分成光学动作捕捉、惯性动作捕捉、Track 设备 + IK 算法的动作捕捉、以人工智能为主的动作捕捉方案。
光学动作捕捉方案是当动捕演员在特定的部位粘上特殊材料,摄像机通过反光来捕捉这些特殊材料的位置变化,从而完成对演员的动作捕捉。
目前,光学动作捕捉方案能通过高帧率的捕捉,实现毫米级误差精度,能对人物动作还原最为精细,但这类捕捉方案对于背景环境的要求较高,技术门槛也同样较高。
▲ 光学动作捕捉技术
在光学动作捕捉设备和方案上,国内外都涌现出一些较为优秀的公司代表,比如说影视动捕巨头 VICON 公司以及国内利亚德集团下的北京虚拟动点科技有限公司。
北京虚拟动点科技有限公司的成立与美国光学巨头公司 NaturalPoint 离不开关系。利亚德集团在 2016 年 11 月 4 日宣布,计划通过旗下的子公司平达公司,以 亿元人民币全资收购了美国光学巨头公司 NaturalPoint,同时也收下了其旗下 OptiTrack 产品系列,随后成立了北京虚拟动点科技有限公司。
OptiTrack 的光学动作捕捉方案可以通过两个以上的高速智能摄像头对于移动目标进行定位,并记录相应数据,从而“复现”人物的动作和表情。
据利亚德集团 COO、虚拟动点董事长姜毅介绍,当两个人戴上 VR 眼镜进行传球动作,OptiTrack 运动捕捉系统可以及时抓取一人动作,并传送到另一个人的 VR 眼中,整个传输过程中,OptiTrack 实现了高精度、低延迟、以及稳定可靠的传输过程。
而惯性动作捕捉方案,主要是通过人物在各个关键佩戴的惯性传感器,并且对一些主要的部分进行实时测量,是比较主流的动作捕捉方案之一。
我们常见的动作捕捉服、手套等设备都是属于这类惯性动作捕捉范围内。
▲ 《指环王》动作捕捉演员 Andy Serkis
甚至现在也出现了人们通过惯性动作捕捉技术打造一个虚拟数字人来直播带货。
▲ 卡通形象的虚拟数字人直播带货现场
在惯性动作捕捉技术的赛道里,国内厂商诺亦腾、国外厂商 XSens 都拥有比较成熟的产品。其中,诺亦腾通过全身 17 节点惯性传感器、全身绑带、传感器充电盒以及 EVA 便携箱等组成部分打造了入门级无线动作捕捉系统 Perception Neuron 3。
第三种则是以 Track 设备 + IK 算法的动作捕捉方案,主要通过 Track 设备以及 IK 算法相结合,模拟出一定的动作姿态。这种动作捕捉方案在一些消费级的产品上运用较多,也颇受硬核技术流玩家们的喜爱,他们可以搭建自己的动作捕捉设备方案。
此前,英国实时动作捕捉技术开发商 IKinem 也基于这样的模式推出了 Orion 产品,该产品通过与不同的硬件设备兼容,实现跟踪数字化身的全身运动轨迹,后来该公司以及其产品线被苹果收购。
最后一种则是近期大火的以人工智能为核心的动作捕捉方案,借助设备上自带的摄像头,如 iPhone 里搭载的深感摄像头实现面部捕捉功能,并且通过深度学习,训练算法将 2D 图像转换成 3D 图像,从而让一些坐着的主播可以拥有一个活灵活现的虚拟形象。
由于这种动作捕捉方案对硬件要求较低,多数依靠软件层的算法,因此具有较为广泛的应用空间和利润空间。
▲ 以人工智能为核心的面部捕捉技术方案
“如果对自由度和视角的要求不高的话,这类基于计算机视觉关键点识别的动捕方案,会是消费者和从业者比较容易接触到的,因为不会涉及到新的成本,好一点的手机上的摄像头就可以实现基础的身体与面部捕捉”,国内动捕巨头公司诺亦腾 CEO 戴若犁说道。
对于动作捕捉技术未来的发展,戴若犁提到,之前动作捕捉系统主要是面对科研、影视等专业领域,因此,在系统复杂度以及成本上基本上不太适用消费级市场。“在大家都过了新鲜劲之后,如果虚拟人赛道不再适用于消费者市场的话,未来的动捕技术还是会为面向专业领域的从业者服务”。
2、主打 Unreal 和 Unity 渲染引擎,颜值和交互性成虚拟数字人渲染关键
除此之外,当人们通过不同的设备记录下自己的动作方案之后,还需要通过渲染引擎,对毛发、衣物等细节尽量还原。如果单从引擎性能上来说,游戏领域的渲染引擎达到最好的渲染效果。目前,国内虚拟数字人主要通过 Unreal、Unity 游戏引擎对人物形象进行渲染。
据陈坚介绍,渲染成果主要关注好看和好用两个方面。其中,好看是指视觉效果上能做到什么样的精细程度,而好用功能上,首先要考虑多个角色同台时渲染的效果,在直播过程中能否及时调整细节。“这些才是决定你的虚拟数字人产品化程度的关键”。
同时,据国外媒体报道,Epic Games 推出了云端流式应用 metaHuman Creator,可以让用户在一小时时间内,不但能实现实时动作捕捉,还能完成人物的渲染,让用户可以轻松上手创建虚拟数字人。
总而言之,目前的虚拟数字人主要依靠光学动作捕捉、惯性动作捕捉、Track 设备 + IK 算法动作捕捉方案和以人工智能为核心的动作捕捉方案为主。
并且,在渲染引擎上,厂商们主要通过 Unreal、Unity 完成人物渲染,在时间成本上也将渲染的时间缩短到一两天左右。
制造难、交互难、成本高,虚拟数字人爆发还需解决三大难题近期,元宇宙概念爆火,不少行业人士提到元宇宙的落地可能会分为几个阶段,其中用户的数字分身可能会在第一阶段率先落地,因为无论是在虚拟世界里还是在物理世界中,人都是不可缺少的组成部分。
尽管目前虚拟数字人赛道上已经逐渐升温,但距离虚拟数字人赛道爆发还差了一些“火候”,比说在制造门槛等问题上,虚拟数字人发展仍然面临一些挑战。
一方面,虚拟数字人的制造门槛仍是将绝大部分的用户拒之门外,不但无法让虚拟数字人赛道拥有更多样的玩法,同时也无法创造新的价值空间。
另一方面,降低硬件的成本门槛也同样重要。在交流的过程中,陈坚告诉智东西为什么动作捕捉设备价格这么高。他谈到尽管看起来近期虚拟数字人概念比较火热,但产业上并没有太大的改变。
戴若犁也同样提到这一点。他认为,现在市场上并没有成功的案例来证明虚拟数字人赛道存在一种可行的商业模式。“多数虚拟数字人还处于创新的阶段,主要依托于现有真人已经摸索出的商业模式。”
“我觉得当虚拟人市场的活跃用户数量达到上万,甚至是数十万,并且有相当比例的用户愿意为虚拟人二次复购的时候,虚拟人市场才能称上有比较稳定的商业模式。”
他举了个例子,当某个虚拟数字人群体拥有上万的用户群体,每次某个虚拟人开播可以有百人左右的在线用户,并且能拿下五十个左右的订单。当这种商业模式可持续发展时,虚拟数字人的商业模式才算成功。
此外,VR/AR 设备将会为虚拟数字人带来全新的交互方式。陈坚提到,“虚拟数字人可能会成为元宇宙的入口,因为只有当人人都拥有虚拟数字人之后,元宇宙才初见雏形”。
但在这其中,VR 设备将是连接虚拟数字人和元宇宙之间的重要桥梁。“当我们通过 VR/AR 设备把社交聊天、剧本杀这类活动移到在虚拟空间完成,并且所有的用户都能拥有自己的虚拟分身时,元宇宙可能会迎来一轮新的爆发。”
结语:虚拟数字人能成为,元宇宙的“入口”吗?根据现有的资料看来,虚拟数字人在概念上、商业盈利模式上以及市场规模上都处于比较早期的阶段。无论是动作捕捉技术,还是渲染技术方面,如今的虚拟数字人行业仍是面对企业市场为主,但部分业务也开始尝试在 C 端市场落地。
尽管虚拟数字人领域借着元宇宙热潮逐渐升温,但是目前并没有一个真正围绕虚拟人衍生出的新的商业模式成功运行。各路巨头的涌入将推动虚拟数字人的商业模式更加清晰,同时,有着相关技术积累的虚拟人公司也将为元宇宙的生态发展提供技术基石。
虚拟数字人能否在创造出自己在下一代互联网的新玩法,最先为元宇宙创造一个“入口”?我们期待着“人人都可虚拟化”的时代,会带来新的惊喜。