AI可以实时编辑视频将新音频同步到人物的嘴唇上的项目Wav2Lip

AI可以实时编辑视频将新音频同步到人物的嘴唇上的项目Wav2Lip

印度国际信息技术研究所的Prajwal Renukanand和他的同事开发了一种算法,可以快速改变一个人说话或唱歌的视频片段。

800_auto

研究人员认为,人工智能可以用来改变视频,使镜头看起来与不同语言的声音相匹配,比如配音电影。

人工智能可以实时调整视频片段,让人们看起来像是对任何声音的口型同步。

在这项工作中,我们研究了对任意身份的说话面孔视频进行口型同步以匹配目标语音片段的问题。

目前的作品擅长在静态图像或训练阶段看到的特定人物的视频上产生准确的嘴唇运动。

但是,它们无法准确变形动态、不受约束的说话人脸视频中任意身份的实际嘴唇动作,导致视频的大部分与新选择的音频不同步。我们确定与此相关的关键原因,从而通过向强大的口型同步鉴别器学习来解决这些问题。

接下来,我们提出了新的、严格的评估基准和指标,以专门衡量无约束视频中口型同步的准确性。对我们具有挑战性的基准进行了广泛的定量和人工评估,表明使用我们的 Wav2Lip 模型生成的视频的口型同步准确性几乎与真实同步视频一样好。

我们在公开的演示视频中清楚地展示了我们的Wav2Lip模型的实质性影响。

我们还开源了我们的代码、模型和评估基准,以促进该领域未来的研究工作。

800_auto

github地址:https://github.com/Rudrabha/Wav2Lip

{{collectdata}}

网友评论