微软开源4人可对话支持中文90分钟超长文本转语音tts模型VibeVoice-1.5B

技术亮点:
超长:单条文本支持最长 90 分钟连续语音。
多人:一次可模拟 4 位不同说话人,男女老幼 / 中英混搭随意切换。
高保真:24 kHz 采样,官方盲测 MOS≈4.5。
实时潜力:7.5 Hz 超低帧率 token,3200× 压缩,后续 0.5B 流式版已在路上。
技术速览:

双 Tokenizer:
– 语义 Tokenizer(ASR 预训练)抓文本情绪、停顿。
– 声学 Tokenizer(VAE)保留音色细节。
生成:Qwen2.5-7B 作为...
点击查看剩余70%
网友评论