搜索

首页/笔记/详情

微软开源0.5B轻量模型VibeVoice-RealTime 实时语音合成低延迟长音频多角色

博文: 34 作品: 382 开源: 3

私信我

微软开源0.5B轻量模型VibeVoice-RealTime 实时语音合成低延迟长音频多角色

800_auto

近日，微软亚洲研究院推出全新实时文本转语音（TTS）模型 VibeVoice-RealTime，以 0.5B 参数实现仅 0.3 秒的首音延迟，为低资源设备与实时交互场景提供突破性解决方案。

该模型采用轻量化架构与 token 级流式生成技术，在保持高保真语音输出的同时，将计算负载压缩至传统实时 TTS 的 1/5。

其核心亮点包括：

支持流式文本输入，可随内容更新动态生成语音；

适配长文本场景，兼顾实时性...

点击查看剩余70%

{{collectdata}}

网友评论

{{item.title}}

{{item.summary}}

博文: 34 作品: 382 开源: 3

私信我

bfwsolo，与ai对话就能生成部署全栈web系统

最新提问