蚂蚁开源比qwen3还要快准的高性能推理 MoE 模型Ring-mini-2.0
蚂蚁百灵大模型团队于 9 月 18 日宣布开源高性能推理 MoE 模型Ring-mini-2.0。
该模型基于 Ling 2.0 架构,采用 MoE 稀疏激活设计,总参数 16B,推理时仅激活约 1.4B,实现 10B 级别以下 dense 模型的综合推理能力,在逻辑推理、代码与数学任务中表现尤为突出。
支持 128K 长上下文,生成速度可达 300+ token/s,优化后有望突破 500+ token/s,显著降低高并发推理成本。
通过 Long-COT SFT、RLVR 与 RLHF 联合优化,Ring-mini-2.0 在 LiveCodeBench、AIME 2025、GPQA、ARC-AGI-v1 等基准测试中性能显著优于 10B 以下 dense 模型,部分指标接近或媲美更大规模 MoE 模型。
团队已在 GitHub 全面开放模型权重、训练策略及数据配方,助力学界与产业快速应用与二次开发。
该模型以 “小体量、高效率、长上下文” 为核心优势,有望成为轻量级推理领域新标杆。
调用代码:
from modelscope import AutoModelForCausalLM...
点击查看剩余70%
网友评论