分享一款开源高质量文本到语音转换库Parler-TTS-BFW编程笔记

分享一款开源高质量文本到语音转换库Parler-TTS

Parler-TTS是Hugging Face推出的一款文本到语音（TTS）模型，能够根据给定的发言者风格（如性别、音调、说话方式等）生成高质量、自然听起来的语音。该项目基于Dan Lyth和Simon King的论文，实现了自然语言引导的高保真TTS合成。

与其他TTS模型不同，Parler-TTS完全开源，包括数据集、预处理、训练代码和模型权重等，便于社区在此基础上开发自己的TTS模型。

800_auto

目前，Parler-TTS Mini v0.1版本已发布，这是一个600M参数的模型，经过10.5K小时音频数据的训练。开发团队计划在未来几周内扩展到50k小时数据，为v1版本的模型做准备。

该仓库提供了Parler-TTS的推理和训练代码，以及与Data-Speech仓库配合使用的数据集注解。

安装Parler-TTS非常简单，只需一行命令即可完成。使用Parler-TTS也很方便，可以通过简单的代码片段进行语音生成。

pip install git+https://github.com/huggingface/parler-tts.git

示例代码

from parler...

点击查看剩余70%

打赏博主×