阿里开源qwen3-Next-80B-A3B-Instruct:重新定义高效大模型的技术标杆

阿里开源qwen3-Next-80B-A3B-Instruct:重新定义高效大模型的技术标杆

800_auto

近日,阿里通义实验室推出 Qwen3-Next 系列首个模型 —— qwen3-Next-80B-A3B-Instruct,该模型凭借创新架构与出色性能,在大模型领域实现重要突破。?

此模型总参数达 800 亿,仅激活 30 亿参数,通过混合注意力机制(结合 Gated DeltaNet 与 Gated Attention)及高稀疏度混合专家(MoE)技术,大幅降低每个令牌的 FLOPs,同时保持模型容量。

800_auto

零中心化、权重衰减层归一化等技术的应用,保障了稳健的预训练与后训练,多令牌预测(MTP)则进一步提升预训练性能并加速推理。?

性能方面,该模型在编程、数学推理等多个基准测试中表现优于其他 Qwen 模型,尤其在超长上下文任务中优势显著,原生支持 262,144 令牌,借助 YaRN 技术可扩展至 1,010,000 令牌。?

800_auto

开发与部署上,模型代码已合并至 Hugging Face transformers 主分支,支持 SGLang、vLLM 等推理框架,通过 MTP 能提升效率或吞吐量,还可借助 Qwen-Agent 充分发挥代理能力。

qwen3-Next特别适合长输入及多轮对话的高效输出与高吞吐,非常适合代码助手。

实验室同时提供了采样参数设置、输出长度保障等最佳实践建议,以及引用信息,方便用户使用与研究。

代码使用

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Next-80B-A3B-Instruct"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCau...

点击查看剩余70%

{{collectdata}}

网友评论