分享一款开源免费免分词 TTS 与零样本声音克隆技术VoxCPM-BFW编程笔记

分享一款开源免费免分词 TTS 与零样本声音克隆技术VoxCPM

800_auto

VoxCPM 基于 MiniCPM-4 架构，采用分层语言建模技术，摒弃了传统 TTS 系统的文本分词预处理步骤，实现了免分词的端到端语音合成。该技术通过 180 万小时双语语料训练，支持上下文感知的语音生成，能够根据文本内容智能推断语调风格。

800_auto

在零样本声音克隆方面，VoxCPM 表现出色，仅需 3-10 秒参考音频，即可复制说话人音色、口音和情感基调。其在消费级 GPU 上实现了高效推理，生成速度比播放速度快 6 倍。此外，VoxCPM 还支持中英文跨语言合成，为用户提供了更广泛的应用场景。

VoxCPM 采用 Apache 2.0 开源许可证，代码和权重完全开放，研究人员和开发者可以从 ...

点击查看剩余70%

打赏博主×