法国 Kyutai Labs开源一款真正实时低延迟文字转声音的TTS模型Kyutai tts与语音识别STT模型
Kyutai TTS是一款 真正实时、低延迟、流式文本输入 的多语种 TTS 模型,专门为大模型实时对话、客服、直播字幕等场景设计。
只要给到 第一个词,220 ms 后就开始出声音,且边说边生成,不需要整句或整段文本提前准备好。
目前只支持英文与法语的实时低延迟识别与文字转声音。
在线 DEMO
打开浏览器即可实时对话:https://unmute.sh(演示像播客主持一样边想边说)。
本地一行命令
# 克隆 + 安装
git clone https://github.com/kyutai-labs/...
点击查看剩余70%
网友评论