谷歌发布 MTP 革命性推理技术:大模型速度提升 3 倍,质量无损

谷歌发布 MTP 革命性推理技术:大模型速度提升 3 倍,质量无损

800_auto

2026 年 5 月 6 日,谷歌正式推出Multi-Token Prediction(MTP,多令牌预测) 推理技术,配套轻量级 “草稿模型”(Drafter)全面开源,可在不修改主模型、不损失输出质量的前提下,将 Gemma 4 系列大模型推理速度最高提升3 倍,彻底突破消费级硬件的部署瓶颈。

传统大模型推理受显存带宽瓶颈制约,每次仅能...

点击查看剩余70%

{{collectdata}}

网友评论