【新智慧介绍】万物皆可播,人人都是主播。但是现在在直播间里和你说话的人不一定是“真人”。
直播 带货,这里有什么新东西?
别着急,今天我给你准备了不一样的东西。
请看上面两位长得像的主播,是不是像双胞胎?
但实际上,他们是“同一个人”!
至于原因,还是先卖了吧。
半夜不得不直播太“贵”了
先说直播带货吧。
顾名思义,重点是“带货”。
但是每次都要点进去,一不小心就会错过。
一旦你来来去去,你可能不想再看一遍。
商家似乎也发现了这个问题,于是带货的虚拟主播应运而生。
7x24小时不间断,您可以随时点击。
然而,问题又来了。要想取得好的成绩,基本上只能靠“真人”了。原理和我们熟悉的“虚拟偶像”没有太大区别。
屏幕上,一个漂亮的女孩正端着商品坐在桌前。其实就是一个演员,在巨大的“动作捕捉室”里,穿着笨重的设备,实现表情和动作的“复刻”。此外,演员本身也需要配音。
如果这是“007”工作制……
另一种方法是实现“自动”,但大部分还处于自言自语的阶段。
比如你想打听一号宝贝,但是他们按照设定的程序在跳舞,根本没有停下来的意思。
“食之无味,弃之可惜”的现状,直接与虚拟人像定制、动作捕捉设备维护或租借等成本高昂有关。
拥有一个便宜且易于操作的系统会很好。
直播 “双胞胎”揭晓!
说到这里,大家还记得开头提到的“双胞胎”吗?
她的“双胞胎”虚拟人是借助科大讯飞的AI虚拟人交互平台训练出来的,只需要采集0.5小时的视频。
如果你仔细看下面的动画,你甚至可以从虚拟人的嘴里读出她说的话:“比较一点爱”。
如此逼真的实现依赖于科大讯飞基于大数据多模态预训练的唇部驱动框架,能够在保证高保真唇部合成效果的同时,实现不同语言和方言的唇部驱动。
此外,在表情和动作的驱动方面,基于情感的语义空间可以实现从语音到表情和动作的情感表达,即让情感贯穿虚拟人的交互过程。
虽然叫“唇驱”,但其实是用AI来编辑整个面部区域。除了嘴形和发音一一对应,其他部位的肌肉和下巴也必须同步运动。
如果觉得用视频训练太麻烦,还可以像游戏中一样,利用科大讯飞的融合人体技术捏一把新的。
该系统可根据不同的应用场景和审美需求,支持眉毛、鼻子、嘴巴的高自由度编辑融合,为不同性别、职业、服装提供丰富的融合人脸资源。
只需编辑单个人脸即可实现完整视频的驱动,采用人脸区域可控编辑创建的新虚拟人脸。
除了这个 2D 真人,科大讯飞还在 3D 虚拟图像构建中结合了基于单张照片的人脸重建和表情迁移,从而实现了 3D 驱动的个性化虚拟图像的快速生成,未来还将扩张到全身。
既然已经“捏”了脸,接下来要做的就是“教”虚拟人说话。
对于深耕语音技术23年的科大讯飞来说,可谓是“老行当”。
想“重新创造”自己的声音吗?小机箱!顺便说一句,你可以让虚拟人用你的声音说方言和外语。
效果好的话,我们来感受一把东北老铁版的“虚拟冰冰”吧!
当然,英语也是如此。
而这只需要将10-15分钟的录音数据上传到科大讯飞开放平台,机器就可以快速学习生成独特的语音合成音库。
与过去整个训练和调音过程耗时数月的标准流程相比,声音分叉使得快速定制声音应用成为可能。
至此,我们已经得到了虚拟人的图像和声音,接下来要解决的问题就是如何使用虚拟人来直播。
虚拟人如何吸引粉丝?
目前,真人主播和中智人能够吸引粉丝的主要原因是他们背后的“人”。
无论是“哦,买吧,买吧!” 在介绍产品,或者及时准确地在公众屏幕上回答问题时,观众有一种真正的参与感,这是很多全自动分身主播所没有的。.
如果我们可以开发一个直播 系统,该系统可以考虑到真人的优势,同时简化流程并降低成本?
废话不多说,先来看看效果吧。
与《中国人》类似,科大讯飞的AI虚拟人直播系统的“人工直播”模式也被真人主播配音。
不过在设备方面,只需要准备一台电脑和一个麦克风,就不需要繁琐的“动作捕捉套装”了。
面部表情是通过嘴唇驱动的框架实现的,而基于动作的交互可以自定义或直接从丰富的内置动作库中利用。
从这个角度来看,这个“精简版”的维护成本和工作量可以比传统中国人少一个数量级以上。
科大讯飞AI虚拟人直播系统更厉害的是,主播甚至不需要自己配音。
你所要做的就是准备好每个产品的介绍和其他链接的文字,剩下的交给系统。
在“脚本直播”的模式下,虚拟人终于做了主播该做的事。
没错,就是讲与观众的“互动”。
毕竟,有时候主播不可能全方位的介绍一个产品。这时候,无论是自己一个人,还是看别人的提问,他都能轻松让观众得到更多的信息。
直观地说,用户通常只有在了解了产品之后才会被下单购买。
在科大讯飞AI虚拟人直播系统中,操作只需点击已经准备好的内容,之后虚拟人会立即打断正在进行的介绍,回答观众提问。
虽然现在这种方法的“人工”程度比较高,但是在即将发布的新版本中,系统可以通过AI识别问题,然后自动给出相应的答案。
在操作方面,科大讯飞的AI虚拟人直播系统为所有直播助手提供支持。
此外,OBS通用流媒体解决方案也可以实现全面覆盖。
为什么要使用头像直播?
说起带货给直播,这个领域有句俗语:“万物皆可播,人人皆可做主播”。
以优惠的价格和随行体验,直播带货确实俘获了越来越多消费者的心。
据统计,我国电子商务直播用户为3.84亿,占网民总数的38%。根据公司数据,全国共有1.6万家电子商务企业直播相关企业,其中2021年将新增注册8364家。
如今,不仅农产品、口红、面膜等小商品“走进”直播间,还延伸到家具、汽车甚至房屋。
所以问题是,为什么要用虚拟人来做可以用真人做的事情?
诚然,直播行业的发展创造了无数机会,但也带来了日益激烈的竞争。
在黄金时段,也就是流量最高的时候,每个商家都会派出自己最强的主播,尽可能多的转化销量。
然而,在其他时候,事情会变得复杂。对于品牌方来说,花重金邀请真人来直播,而只是在分散的流量中寻求少量订单,实在不划算。同时,对于主播来说,倒挂的作息对身体的负担太大了。
另外,对于一些比较专业的领域,商家可能很难找到真正懂产品的主播。钱很可能会花掉,但不会有利润。
在这样的需求下,虚拟人直播逐渐展现出自己的优势。
不过,正如我一开始所说,中智人在早期的图像建模和直播期间的动作捕捉上花了很多钱。全自动虚拟人在后期想要对人物进行更新迭代时,还需要面临建模和重新抓拍的问题,成本居高不下。
针对这些问题,科大讯飞拿出了“三轴”。
首先,在现有算力的限制下,科大讯飞AI虚拟人直播系统主要以2D真人作为虚拟人的形象。
对于用户来说,操作更方便。只需上传0.5小时的视频素材或使用捏脸即可获得全新的定制虚拟人。
另外,2D头像的另一个好处是,当宿主自己是一个非常受欢迎的IP时,为直播重新雕刻一张相同的脸很可能会产生意想不到的效果。
其次,科大讯飞AI虚拟人直播系统中的“人工播报”,让更多不便出境的人有资格获得主播一职。并且在AI的加持下,任何在背后说话的人都可以变成一组虚拟人的声音。这将允许 直播 覆盖更多时间段。
最终的“剧本播报”可以说是虚拟人直播的理想形态。在后续升级中,虚拟人不仅可以根据设定稿件介绍产品,还可以自动捕捉观众提问中的关键词,智能回答相应问题。
综上所述,科大讯飞通过人机耦合,让虚拟人承担了更多繁重的劳动,有效减轻了直播主播的负担和公司的成本。再加上24/7不间断的直播,任何潜在的机会都不会错过。
就像罗马不是一天建成的,科大讯飞的AI直播虚拟人也不是一蹴而就的。
科大讯飞一站式解决方案
自2018年5月AI虚拟主播“康小慧”登上央视《直播长江》特别节目以来,科大讯飞的虚拟人一直在不断迭代更新。
到2021年,科大讯飞正式发布AI虚拟人机交互平台1.0。
基于此,科大讯飞整合了语音合成、语音识别、自然语言、图像处理等自主研发的技术。
一方面提升了虚拟人的感知、表达、情感等技术,让未来的人机交互更加逼真,另一方面支持自主定制,包括语音、图像、服装、场景、等,并建立了更大更便捷的数字资产库,赋予虚拟人更多个性。
时间到了2022年,科大讯飞升级了AI虚拟人机交互平台。
现在,平台不仅可以提供头像搭建、AI驾驶、API接入、多场景解决方案,还可以实现一站式头像制作服务。
未来,科大讯飞希望在虚拟人上做更多的事情。
他们会变得越来越可爱,越来越有个性。
他们不仅可以提供帮助,还可以得到人们的喜爱。
最重要的是,每个人都可以拥有自己的虚拟人。