分享一个自带声音克隆的多人对话音频生成模型csm-BFW编程笔记

分享一个自带声音克隆的多人对话音频生成模型csm

800_auto

CSM（Conversational Speech Model）是由Sesame团队开发的一种对话语音生成模型，旨在通过自然、连贯的语音生成技术提升语音助手的情感交互能力。该模型基于Llama架构，并采用多模态Transformer框架，结合文本和音频输入，生成高质量的语音。

?模型架构

CSM模型由两个自回归Transformer组成：

1. 多模态主干网络（Backbone）：处理交错输入的文本和音频序列，用于预测第0层码本（语义信息）。

800_auto
2. 音频解码器（Decoder）：基于第0层码本的预测结果，进一步生成第1到第N-1...

点击查看剩余70%

打赏博主×