美团开源音频驱动的多人对话视频生成数字人框架MeiGen-MultiTalk-BFW编程笔记

美团开源音频驱动的多人对话视频生成数字人框架MeiGen-MultiTalk

800_auto

MeiGen-MultiTalk 是由中山大学、美团和香港科技大学联合提出的一个音频驱动的多人对话视频生成框架。

该框架能够根据多流音频输入、参考图像和文本提示生成包含交互的视频，唇部动作与音频保持一致。

功能特点

精准多音频流绑定：通过首创的标签旋转位置编码（L-RoPE）技术，解决了多音频流与人物错位的问题。

强化指令跟随能力：能够准确响应复杂的交互指令，如“A点头B摇头”，并且支持参考图像、多音频流和文本提示的复合条件输入。

高效训练范式：采用轻量化微调和多任务学习策略，仅训练音频交叉注意力层（占模型5%参数），保留原有图像生成能力。

泛化性能：支持生成卡...

点击查看剩余70%

打赏博主×