腾讯开源为视频生成音效模型HunyuanVideo-Foley

腾讯开源为视频生成音效模型HunyuanVideo-Foley

8 月 28 日,腾讯混元宣布正式开源端到端视频音效生成模型 HunyuanVideo-Foley。用户只需输入视频及文字描述,便能为视频匹配电影级音效。

800_auto

HunyuanVideo-Foley 打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,做到了 “看懂画面、读懂文字、配准声音”。其技术亮点突出,采用了双流多模态扩散变换器,能让视频画面和音频帧级信息实现同步,并把文字描述的语义精准注入。同时,混元团队构建了约 10 万小时级的高质量 TV2A 数据集,为模型训练...

点击查看剩余70%

{{collectdata}}

网友评论