谷歌人工智能研究人员和印度卡哈拉格普尔理工学院(Indian Institute of Technology Kharagpur)一起合作开发了一个新的框架,可以从音频内容中综合有声头像。
该项目的目的是开发出经过优化且资源合理的方法,实现根据音频创造「会说话的头像」视频,在交互式应用程序和其他实时环境中实现同步口型动作的配音或机器翻译的音频,并添加到头像。
论文地址:https://arxiv.org/pdf/2106.04185.pdf
机器学习模型LipSync3D
在这个过程中训练的机器学习模型LipSync3D,只需要一个目标人脸识别的视频作为输入数据。
数据准备管道将面部几何的提取与输入视频的灯光和其他方面的评估分离开来,允许更经济合算和更集中的训练。
LipSync3D的两阶段工作流程。上图是从「目标」音频生成的动态纹理三维人脸; 下图是将生成的网格插入到目标视频中。
事实上,LipSync3D对这一领域研究工作最显著的贡献可能是其照明归一化算法(lighting normalization algorithm),该算法将训练和推断照明解耦。
从一般几何解耦照明数据有助于LipSync3D在具有挑战性的条件下产生更真实的口型变化。最近几年的其他方法已经将自己限制在「固定」的照明条件下,这样就不会暴露出它们在这方面的有限。
在输入数据帧的预处理过程中,系统必须识别和删除镜像点,因为这些镜像点是特定于拍摄视频光照条件的,否则会干扰重现过程。
LipSync3D,顾名思义,不仅仅是对它评估的面孔进行像素分析,而是积极地使用已确定的面部标志来生成运动的CGI风格的网格,以及通过传统CGI管道包裹在它们周围的「展开」(unfolded)纹理。
LipSync3D 中的姿势归一化。左边是输入帧和检测特征; 中间是生成的网格评估的规范化顶点; 右边是相应的纹理图谱,为纹理预测提供了基础真实性。来源: https://arxiv.org/pdf/2106.04185.pdf
除了这种新颖的照明重现方法,研究人员声称,LipSync3D在以前的工作中提供了三个主要创新: 将几何、光照、姿态和纹理分离到规范化空间中的离散数据流中; 一个易于训练的自回归纹理预测模型,可以生成时间上一致的视频合成; 以及通过人类评级和客观度量来增加真实感。
分裂出的视频面部图像的各个方面允许在视频合成中实现更大的控制。
通过分析语音的音素和其他方面,LipSync3D可以直接从音频中推导出适当的唇部几何运动,并将其转化为嘴部周围已知的相应肌肉姿势。
这个过程使用一个联合预测管道,其中推断的几何形状和纹理在自动编码器设置中有专门的编码器,但与打算施加在模型上的语音共享一个音频编码器:
LipSync3D 的动作合成也助力提升程式化的CGI头像,实际上它们只是和真实世界的图像一样的网格和纹理信息:
一个个性的3D头像的嘴唇动作实时动力源扬声器视频。在这种情况下,最优结果将通过个性化的预训练获得。
研究人员还希望使用更加真实的头像:
在 GeForce GTX 1080上使用 TensorFlow、 Python 和 C + + 的管道中,视频的示例训练时间从2-5分钟的视频所需3-5小时不等。训练课程使用了一批大小为128帧超过500-1000epoch,每个epoch代表一个完整的视频评估。
未来:动态的口型再同步
过去几年,口型再同步适应新的音轨已经在计算机视觉研究中吸引了大量的关注,尤其是它还是有争议的deepfake技术的副产品。
2017年,华盛顿大学展示了一项能够通过音频学习对口型的研究,还用当时的总统奥巴马的图片做了视频。
https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf
2018年,马克斯·普朗克计算机科学研究所进行了另一项研究计划,实现了身份 > 身份视频转换(identity>identity video transfer),还带来了口型同步; 2021年5月,人工智能初创公司 FlawlessAI 发布了其专有的对口型同步技术 TrueSync,该技术被媒体广泛认可为跨语言的主要电影的发行改进配音技术。
当然,deepfake开源资源库的持续发展也为面部图像合成这一领域提供了另一个活跃的用户贡献的研究分支。
Ubuntu是一个以桌面应用为主的Linux操作系统。它是一个开放源代码的自由软件,提供了一个健壮、功能丰富的计算环境,既适合家庭使用又适用于商业环境。Ubuntu将为全球数百个公司提供商业支持。 ...
查看全文Docker采取了一种保守的方法来清理未使用的对象(通常称为“垃圾收集”),例如图像,容器,卷和网络:除非您明确要求Docker这样做,否则通常不会删除这些对象。这可能会导致Docker使用额外的磁盘空...
查看全文新浪科技讯 北京时间5月27日晚间消息,据报道,四位知情人士今日透露,亚马逊、微软和谷歌这三大云计算服务提供商,正在竞争波音公司(Boeing)价值10亿美元的云服务合同。 这些...
查看全文新浪科技讯 北京时间5月27日晚间消息,据报道,多位知情人士今日称,继加州、纽约州和华盛顿州之后,马萨诸塞州和宾夕法尼亚州的总检察长也加入到对亚马逊的反垄断调查中。 如今,越来越...
查看全文
您好!请登录