虚拟主播 :多才多艺的“虚拟主播”，你了解多少？丨智言智语

幕言助手 2024-04-28 03:08:51 幕言直播助手 542 ℃ 阿比整蛊源头|厂商微信：gogoh6

正文

编者案: 智显将来，洞见新知虚拟主播。中科院之声与中国科学院主动化研究所结合开设“智言智语”科普专栏，为你介绍人工智能相关常识与故事，从最新功效到背后妙闻，带你徘徊AI空间，看人工智能若何唤醒万物，让世界变得更美妙。

跟着近年来音视频生成手艺的不竭开展，“虚拟主播”逐步走入人们视野虚拟主播。虚拟主播利用视频生成手艺和虚拟现实手艺，实现2D/3D虚拟形象取代实人主播，并因其在虚拟客服、长途会议、片子剪辑等现实应用场景中的重要感化而获得了社会各界的普遍存眷。

目前，虚拟主播背后的音视频生成手艺可以将文稿或者音频主动转化为播音视频，实现了虚拟形象的多语种主动播报，并能够通过虚拟现实等手艺展示出来，此中最广为人所知的形象莫过于虚拟Youtuber虚拟主播。据不完全统计, 2018岁暮在YouTube网站上有超越8000名虚拟主播开展线上活动。

现实需求与手艺挑战

虚拟主播手艺的关键在于若何控造虚拟形象的面部脸色、嘴唇运动与播报声音一致，且动做姿势契合场景，过程高效虚拟主播。从不雅寡的曲不雅感触感染而言，一个好的虚拟主播，需要口型契合发音习惯，动做姿势契合场景，情感表达契合说话语境。若是视频或虚拟现实呈现的人脸色生硬、口型也无法与音频对应，那么不雅寡就很难获得温馨的旁观体验。而从手艺攻关角度而言，研究人员在曲不雅感触感染之外愈加存眷整体视频或虚拟现实影像的明晰度以及跟尾的连接水平。那不断以来都是视频生成以及虚拟现实使命中的挑战和难点，亟需科研人员不竭摸索更好的处理计划。

我国应用现状及前景预测

我国在相关手艺上的研究和应用历程启动较早，2017年8月国内市场即呈现了首批虚拟主播的身影，近两年也呈现了较好的开展态势虚拟主播。现在，在国内部门网站上活泼的虚拟主播粉丝数量已经到达几十万以至百万数量级。2018年11月, 搜狗与新华社结合发布了以新华社新闻主播邱浩为原型的全球首个“AI合成主播”；2019年与2020年，晋级的站立式虚拟主播“新小萌”、“新小薇”，持续在2019年和2020年全国两会上岗担播。

跟着手艺的不竭开展，在将来“虚拟主播”不只能在文化娱乐标的目的全面产能，在办事行业方面也能实现高效交互虚拟主播。除了目前应用较多的娱乐场景，虚拟主播的手艺也能够在其他的场景得以应用，如片子配音编纂、抖音对口型视频、全民K歌、虚拟客户办事、虚拟形象视频会议等。

跟着其应用场景的不竭丰硕，一个优良的虚拟主播需要展示出“多才多艺”：不只是语音播报，还需要实现天然交互，以替代线上人工客服以及线下的智能末端产物，实现可视化数字人客服产物虚拟主播。同时，该手艺将来也可与其他实现体例相连系，如虚拟现实、加强现实等，给用户供给更沉浸的全方位体验、更具有冲击力的感官体验、愈加实在的人机交互体验。

多才多艺的“虚拟主播”strong/p
p虚拟主播
/strong，你领会几？丨智言智语

图1 新华社“新小萌”

相关手艺停顿

虚拟主播的实现流程一般包罗：视频收罗，数据处置，模子训练，形象输出，集成利用等虚拟主播。其详细环节涉及人脸关键点检测、人脸特征提取、人脸重建、深度进修、音视频协同等手艺，从而生成好像实在的播音员主持人一样的虚拟形象。在该手艺的萌芽阶段，整个流程十分耗时耗力，而且只适用于特定单一使命，无法实现肆意形象的互换。好比，若是希望得到一个奥巴马形象的虚拟主播，那么起首是需要收罗大量奥巴马演讲数据，之后再停止数据清洗、数据处置、收集训练、性能调优等一系列流程，非常耗时耗力。

目前，该手艺次要依赖三维模子或者生成匹敌收集实现虚拟主播。三维模子衬着办法一般需要较长时间模子衬着，且此类办法往往存在着生成视频传神水平低、嘴型不合理、数据丰硕性差等问题，其实不适宜大规模应用场景。基于生成匹敌收集的办法需要颠末数据收罗、收集训练、性能调优等流程。该过程不只需要消耗大量计算与人力资本，并且还存在着进修样本不敷等问题，最末影响人工智能合成视频的实在水平。

近期，为了满足愈加普遍和通用的需求，科研人员将虚拟主播手艺更进一步地推向肆意人物协同生成手艺虚拟主播。那项手艺旨在操纵一段音频与肆意人物的形象生成该人物的说话视频。该过程需要考虑从语音到嘴部运动的一到多映射问题，即同样的说话内容对差别的人物会有不尽不异的嘴部运动，那取决于差别人的口腔构造差别、说话的习惯等。别的，低维度音频与高维度视频之间的数据差别也是该手艺无法回避的难点之一。

为处理上述问题，中科院主动化所智能感知与计算研究中心设想了一个非对称式互信息估量器（图2）虚拟主播。若是希望从音频与一张静态图像就可以生成天然、连接、准确的虚拟主播视频，那么音频在向视频转换的过程中的损耗应该尽可能的小、转换的映射应该尽可能的准确，模子对差别人物说话体例也应该具有必然的想象力。为此，该办法提出了非对称式的互信息估量模块，以构建音视频模态间的约束，最末使得合成视频中人物的虚拟口型愈加准确天然。

多才多艺的“虚拟主播”strong/p
p虚拟主播
/strong，你领会几？丨智言智语

图2 模子根本流程与构造

结语：

虚拟形象的优势在于它比天然人形态愈加不变，且无需歇息，不会呈现口误虚拟主播。因而，虚拟主播能够把实人主播从较为简单的（如固定文字的语音播报等）主持活动中解脱出来，使其可以愈加专注于对临场应对才能要求较高或需要实情面感的复杂主持使命。因为目前虚拟主播手艺缺乏语音感情化、内容理解语义化和个性化，其开展仍然遭到必然水平限造。相信跟着神经科学、心理学、计算机科学和人工智能手艺的开展和交融，将来虚拟主播必然能够为播送电视事业和播音主持行业的开展注入新的活力，带来新的变化。

做者：墨昊、宋林森、鲜明

来源：中国科学院主动化研究所

编者案: 智显将来，洞见新知虚拟主播。中科院之声与中国科学院主动化研究所结合开设“智言智语”科普专栏，为你介绍人工智能相关常识与故事，从最新功效到背后妙闻，带你徘徊AI空间，看人工智能若何唤醒万物，让世界变得更美妙。

跟着近年来音视频生成手艺的不竭开展，“虚拟主播”逐步走入人们视野虚拟主播。虚拟主播利用视频生成手艺和虚拟现实手艺，实现2D/3D虚拟形象取代实人主播，并因其在虚拟客服、长途会议、片子剪辑等现实应用场景中的重要感化而获得了社会各界的普遍存眷。

目前，虚拟主播背后的音视频生成手艺可以将文稿或者音频主动转化为播音视频，实现了虚拟形象的多语种主动播报，并能够通过虚拟现实等手艺展示出来，此中最广为人所知的形象莫过于虚拟Youtuber虚拟主播。据不完全统计, 2018岁暮在YouTube网站上有超越8000名虚拟主播开展线上活动。

现实需求与手艺挑战

虚拟主播手艺的关键在于若何控造虚拟形象的面部脸色、嘴唇运动与播报声音一致，且动做姿势契合场景，过程高效虚拟主播。从不雅寡的曲不雅感触感染而言，一个好的虚拟主播，需要口型契合发音习惯，动做姿势契合场景，情感表达契合说话语境。若是视频或虚拟现实呈现的人脸色生硬、口型也无法与音频对应，那么不雅寡就很难获得温馨的旁观体验。而从手艺攻关角度而言，研究人员在曲不雅感触感染之外愈加存眷整体视频或虚拟现实影像的明晰度以及跟尾的连接水平。那不断以来都是视频生成以及虚拟现实使命中的挑战和难点，亟需科研人员不竭摸索更好的处理计划。

我国应用现状及前景预测

我国在相关手艺上的研究和应用历程启动较早，2017年8月国内市场即呈现了首批虚拟主播的身影，近两年也呈现了较好的开展态势虚拟主播。现在，在国内部门网站上活泼的虚拟主播粉丝数量已经到达几十万以至百万数量级。2018年11月, 搜狗与新华社结合发布了以新华社新闻主播邱浩为原型的全球首个“AI合成主播”；2019年与2020年，晋级的站立式虚拟主播“新小萌”、“新小薇”，持续在2019年和2020年全国两会上岗担播。

跟着手艺的不竭开展，在将来“虚拟主播”不只能在文化娱乐标的目的全面产能，在办事行业方面也能实现高效交互虚拟主播。除了目前应用较多的娱乐场景，虚拟主播的手艺也能够在其他的场景得以应用，如片子配音编纂、抖音对口型视频、全民K歌、虚拟客户办事、虚拟形象视频会议等。

跟着其应用场景的不竭丰硕，一个优良的虚拟主播需要展示出“多才多艺”：不只是语音播报，还需要实现天然交互，以替代线上人工客服以及线下的智能末端产物，实现可视化数字人客服产物虚拟主播。同时，该手艺将来也可与其他实现体例相连系，如虚拟现实、加强现实等，给用户供给更沉浸的全方位体验、更具有冲击力的感官体验、愈加实在的人机交互体验。

多才多艺的“虚拟主播”strong/p
p虚拟主播
/strong，你领会几？丨智言智语

图1 新华社“新小萌”

相关手艺停顿

虚拟主播的实现流程一般包罗：视频收罗，数据处置，模子训练，形象输出，集成利用等虚拟主播。其详细环节涉及人脸关键点检测、人脸特征提取、人脸重建、深度进修、音视频协同等手艺，从而生成好像实在的播音员主持人一样的虚拟形象。在该手艺的萌芽阶段，整个流程十分耗时耗力，而且只适用于特定单一使命，无法实现肆意形象的互换。好比，若是希望得到一个奥巴马形象的虚拟主播，那么起首是需要收罗大量奥巴马演讲数据，之后再停止数据清洗、数据处置、收集训练、性能调优等一系列流程，非常耗时耗力。

目前，该手艺次要依赖三维模子或者生成匹敌收集实现虚拟主播。三维模子衬着办法一般需要较长时间模子衬着，且此类办法往往存在着生成视频传神水平低、嘴型不合理、数据丰硕性差等问题，其实不适宜大规模应用场景。基于生成匹敌收集的办法需要颠末数据收罗、收集训练、性能调优等流程。该过程不只需要消耗大量计算与人力资本，并且还存在着进修样本不敷等问题，最末影响人工智能合成视频的实在水平。

近期，为了满足愈加普遍和通用的需求，科研人员将虚拟主播手艺更进一步地推向肆意人物协同生成手艺虚拟主播。那项手艺旨在操纵一段音频与肆意人物的形象生成该人物的说话视频。该过程需要考虑从语音到嘴部运动的一到多映射问题，即同样的说话内容对差别的人物会有不尽不异的嘴部运动，那取决于差别人的口腔构造差别、说话的习惯等。别的，低维度音频与高维度视频之间的数据差别也是该手艺无法回避的难点之一。

为处理上述问题，中科院主动化所智能感知与计算研究中心设想了一个非对称式互信息估量器（图2）虚拟主播。若是希望从音频与一张静态图像就可以生成天然、连接、准确的虚拟主播视频，那么音频在向视频转换的过程中的损耗应该尽可能的小、转换的映射应该尽可能的准确，模子对差别人物说话体例也应该具有必然的想象力。为此，该办法提出了非对称式的互信息估量模块，以构建音视频模态间的约束，最末使得合成视频中人物的虚拟口型愈加准确天然。

多才多艺的“虚拟主播”strong/p
p虚拟主播
/strong，你领会几？丨智言智语

图2 模子根本流程与构造

结语：

虚拟形象的优势在于它比天然人形态愈加不变，且无需歇息，不会呈现口误虚拟主播。因而，虚拟主播能够把实人主播从较为简单的（如固定文字的语音播报等）主持活动中解脱出来，使其可以愈加专注于对临场应对才能要求较高或需要实情面感的复杂主持使命。因为目前虚拟主播手艺缺乏语音感情化、内容理解语义化和个性化，其开展仍然遭到必然水平限造。相信跟着神经科学、心理学、计算机科学和人工智能手艺的开展和交融，将来虚拟主播必然能够为播送电视事业和播音主持行业的开展注入新的活力，带来新的变化。

做者：墨昊、宋林森、鲜明

来源：中国科学院主动化研究所

温馨提醒：近期，微信公家号信息流改版虚拟主播。每个用户能够设置常读订阅号，那些订阅号将以大卡片的形式展现。因而，若是不想错过“中科院之声”的文章，你必然要停止以下操做：进入“中科院之声”公家号 → 点击右上角的 ··· 菜单 → 选择「设为星标」

多才多艺的“虚拟主播”strong/p
p虚拟主播
/strong，你领会几？丨智言智语