meta发布电影级别的文本语音生成多角色全身动作的视频技术Mocha

meta发布电影级别的文本语音生成多角色全身动作的视频技术Mocha

800_auto

MoCha 是由 Meta 和滑铁卢大学联合开发的电影级对话角色视频生成技术,能够通过文本或语音输入生成高质量的动画角色视频。

技术特点

端到端生成:MoCha 可以直接从语音和文本输入生成电影级的对话角色视频,无需额外的参考图像、骨骼关键点或控制信号。

语音与视频精准对齐:采用语音-视频窗口注意力机制,解决了音频...

点击查看剩余70%

{{collectdata}}

网友评论