阿里开源全球首个应用思维链(CoT)技术的音频生成模型ThinkSound,支持视频配音

阿里开源全球首个应用思维链(CoT)技术的音频生成模型ThinkSound,支持视频配音

阿里巴巴通义实验室于2025年7月1日正式开源了全球首个应用思维链(CoT)技术的音频生成模型ThinkSound。这一模型首次将思维链技术引入音频生成领域,通过多阶段推理框架解决了传统视频转音频(V2A)技术中音画错位的问题。

核心创新

三阶段推理流程:ThinkSound模拟了专业音效师的工作逻辑,通过“事件解构”“声学推导”和“时序合成”三个阶段,逐步生成与画面同步的音...

点击查看剩余70%

{{collectdata}}

网友评论