腾讯混元开源数字人模型 HunyuanVideo-Avatar-BFW编程笔记

腾讯混元开源数字人模型 HunyuanVideo-Avatar

800_auto

HunyuanVideo-Avatar 是腾讯混元团队与腾讯音乐天琴实验室联合研发的开源语音数字人模型。

该模型基于多模态扩散Transformer架构，能够仅凭一张人物图像和一段音频生成包含自然表情、唇形同步及全身动作的动态视频。

核心功能

智能音频解析：模型通过音频情感模块（AEM）识别音频中的情感和风格，如喜悦、悲伤、抒情、摇滚等，并动态调整视频生成参数。

多模态协同生成：角色图像注入模块将人物图像分解为面部、肢体、服饰等特征层，结合音频情感分析结果生成动态视频。

高一致性音画...

点击查看剩余70%

打赏博主×