分享一款开源免费免分词 TTS 与零样本声音克隆技术VoxCPM

VoxCPM 基于 MiniCPM-4 架构,采用分层语言建模技术,摒弃了传统 TTS 系统的文本分词预处理步骤,实现了免分词的端到端语音合成。该技术通过 180 万小时双语语料训练,支持上下文感知的语音生成,能够根据文本内容智能推断语调风格。

在零样本声音克隆方面,VoxCPM 表现出色,仅需 3-10 秒参考音频,即可复制说话人音色、口音和情感基调。其在消费级 GPU 上实现了高效推理,生成速度比播放速度快 6 倍。此外,VoxCPM 还支持中英文跨语言合成,为用户提供了更广泛的应用场景。
VoxCPM 采用 Apache 2.0 开源许可证,代码和权重完全开放,研究人员和开发者可以从 ...
点击查看剩余70%
网友评论