阿里开源qwen3-Next-80B-A3B-Instruct:重新定义高效大模型的技术标杆
近日,阿里通义实验室推出 Qwen3-Next 系列首个模型 —— qwen3-Next-80B-A3B-Instruct,该模型凭借创新架构与出色性能,在大模型领域实现重要突破。?
此模型总参数达 800 亿,仅激活 30 亿参数,通过混合注意力机制(结合 Gated DeltaNet 与 Gated Attention)及高稀疏度混合专家(MoE)技术,大幅降低每个令牌的 FLOPs,同时保持模型容量。
零中心化、权重衰减层归一化等技术的应用,保障了稳健的预训练与后训练,多令牌预测(MTP)则进一步提升预训练性能并加速推理。?
性能方面,该模型在编程、数学推理等多个基准测试中表现优于其他 Qwen 模型,尤其在超长上下文任务中优势显著,原生支持 262,144 令牌,借助 YaRN 技术可扩展至 1,010,000 令牌。?
开发与部署上,模型代码已合并至 Hugging Face transformers 主分支,支持 SGLang、vLLM 等推理框架,通过 MTP 能提升效率或吞吐量,还可借助 Qwen-Agent 充分发挥代理能力。
qwen3-Next特别适合长输入及多轮对话的高效输出与高吞吐,非常适合代码助手。
实验室同时提供了采样参数设置、输出长度保障等最佳实践建议,以及引用信息,方便用户使用与研究。
代码使用
from modelscope import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-Next-80B-A3B-Instruct" # load the tokenizer and the model tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCau...
点击查看剩余70%
网友评论