Mercury 2 发布:全球首个扩散推理 LLM,速度破千Token每秒

Mercury 2 发布:全球首个扩散推理 LLM,速度破千Token每秒

800_auto

近日,Inception Labs 正式发布 Mercury 2,全球首个基于扩散架构的推理级大语言模型,彻底打破自回归 “逐字生成” 瓶颈。该模型在 NVIDIA Blackwell GPU 上实现1009 Token / 秒吞吐量,端到端延迟仅...

点击查看剩余70%

{{collectdata}}

网友评论