微软开源0.5B轻量模型VibeVoice-RealTime 实时语音合成低延迟长音频多角色

近日,微软亚洲研究院推出全新实时文本转语音(TTS)模型 VibeVoice-RealTime,以 0.5B 参数实现仅 0.3 秒的首音延迟,为低资源设备与实时交互场景提供突破性解决方案。
该模型采用轻量化架构与 token 级流式生成技术,在保持高保真语音输出的同时,将计算负载压缩至传统实时 TTS 的 1/5。
其核心亮点包括:
支持流式文本输入,可随内容更新动态生成语音;
适配长文本场景,兼顾实时性...
点击查看剩余70%
网友评论