微软开源0.5B轻量模型VibeVoice-RealTime 实时语音合成低延迟长音频多角色

微软开源0.5B轻量模型VibeVoice-RealTime 实时语音合成低延迟长音频多角色

800_auto

近日,微软亚洲研究院推出全新实时文本转语音(TTS)模型 VibeVoice-RealTime,以 0.5B 参数实现仅 0.3 秒的首音延迟,为低资源设备与实时交互场景提供突破性解决方案。

该模型采用轻量化架构与 token 级流式生成技术,在保持高保真语音输出的同时,将计算负载压缩至传统实时 TTS 的 1/5。

核心亮点包括:

支持流式文本输入,可随内容更新动态生成语音;

适配长文本场景,兼顾实时性...

点击查看剩余70%

{{collectdata}}

网友评论