分享一个自带声音克隆的多人对话音频生成模型csm
CSM(Conversational Speech Model)是由Sesame团队开发的一种对话语音生成模型,旨在通过自然、连贯的语音生成技术提升语音助手的情感交互能力。该模型基于Llama架构,并采用多模态Transformer框架,结合文本和音频输入,生成高质量的语音。
?模型架构
CSM模型由两个自回归Transformer组成:
1. 多模态主干网络(Backbone):处理交错输入的文本和音频序列,用于预测第0层码本(语义信息)。
2. 音频解码器(Decoder):基于第0层码本的预测结果,进一步生成第1到第N-1...
点击查看剩余70%
网友评论