法国 Kyutai Labs开源一款真正实时低延迟文字转声音的TTS模型Kyutai tts与语音识别STT模型

法国 Kyutai Labs开源一款真正实时低延迟文字转声音的TTS模型Kyutai tts与语音识别STT模型

800_auto

Kyutai TTS是一款 真正实时、低延迟、流式文本输入 的多语种 TTS 模型,专门为大模型实时对话、客服、直播字幕等场景设计。

只要给到 第一个词,220 ms 后就开始出声音,且边说边生成,不需要整句或整段文本提前准备好。

目前只支持英文与法语的实时低延迟识别与文字转声音。

在线 DEMO

打开浏览器即可实时对话:https://unmute.sh(演示像播客主持一样边想边说)。

本地一行命令

# 克隆 + 安装

git clone https://github.com/kyutai-labs/...

点击查看剩余70%

{{collectdata}}

网友评论