法国 Kyutai Labs开源一款真正实时低延迟文字转声音的TTS模型Kyutai tts与语音识别STT模型-BFW编程笔记

法国 Kyutai Labs开源一款真正实时低延迟文字转声音的TTS模型Kyutai tts与语音识别STT模型

800_auto

Kyutai TTS是一款真正实时、低延迟、流式文本输入的多语种 TTS 模型，专门为大模型实时对话、客服、直播字幕等场景设计。

只要给到第一个词，220 ms 后就开始出声音，且边说边生成，不需要整句或整段文本提前准备好。

目前只支持英文与法语的实时低延迟识别与文字转声音。

在线 DEMO

打开浏览器即可实时对话：https://unmute.sh（演示像播客主持一样边想边说）。

本地一行命令

# 克隆 + 安装

git clone https://github.com/kyutai-labs/...

点击查看剩余70%

打赏博主×