微软开源4人可对话支持中文90分钟超长文本转语音tts模型VibeVoice-1.5B

微软开源4人可对话支持中文90分钟超长文本转语音tts模型VibeVoice-1.5B

800_auto

技术亮点:

超长:单条文本支持最长 90 分钟连续语音。

多人:一次可模拟 4 位不同说话人,男女老幼 / 中英混搭随意切换。

高保真:24 kHz 采样,官方盲测 MOS≈4.5。

实时潜力:7.5 Hz 超低帧率 token,3200× 压缩,后续 0.5B 流式版已在路上。

技术速览:

800_auto

双 Tokenizer:

– 语义 Tokenizer(ASR 预训练)抓文本情绪、停顿。

– 声学 Tokenizer(VAE)保留音色细节。

生成:Qwen2.5-7B 作为...

点击查看剩余70%

{{collectdata}}

网友评论