分享一款开源高质量文本到语音转换库Parler-TTS

分享一款开源高质量文本到语音转换库Parler-TTS

Parler-TTS是Hugging Face推出的一款文本到语音(TTS)模型,能够根据给定的发言者风格(如性别、音调、说话方式等)生成高质量、自然听起来的语音。该项目基于Dan Lyth和Simon King的论文,实现了自然语言引导的高保真TTS合成。

与其他TTS模型不同,Parler-TTS完全开源,包括数据集、预处理、训练代码和模型权重等,便于社区在此基础上开发自己的TTS模型。

800_auto

目前,Parler-TTS Mini v0.1版本已发布,这是一个600M参数的模型,经过10.5K小时音频数据的训练。开发团队计划在未来几周内扩展到50k小时数据,为v1版本的模型做准备。

该仓库提供了Parler-TTS的推理和训练代码,以及与Data-Speech仓库配合使用的数据集注解。

安装Parler-TTS非常简单,只需一行命令即可完成。使用Parler-TTS也很方便,可以通过简单的代码片段进行语音生成。

pip install git+https://github.com/huggingface/parler-tts.git

示例代码
from parler...

点击查看剩余70%

{{collectdata}}

网友评论