阿里开源qwen3-Next-80B-A3B-Instruct：重新定义高效大模型的技术标杆-BFW编程笔记

阿里开源qwen3-Next-80B-A3B-Instruct：重新定义高效大模型的技术标杆

800_auto

近日，阿里通义实验室推出 Qwen3-Next 系列首个模型 —— qwen3-Next-80B-A3B-Instruct，该模型凭借创新架构与出色性能，在大模型领域实现重要突破。?

此模型总参数达 800 亿，仅激活 30 亿参数，通过混合注意力机制（结合 Gated DeltaNet 与 Gated Attention）及高稀疏度混合专家（MoE）技术，大幅降低每个令牌的 FLOPs，同时保持模型容量。

800_auto

零中心化、权重衰减层归一化等技术的应用，保障了稳健的预训练与后训练，多令牌预测（MTP）则进一步提升预训练性能并加速推理。?

性能方面，该模型在编程、数学推理等多个基准测试中表现优于其他 Qwen 模型，尤其在超长上下文任务中优势显著，原生支持 262,144 令牌，借助 YaRN 技术可扩展至 1,010,000 令牌。?

800_auto

开发与部署上，模型代码已合并至 Hugging Face transformers 主分支，支持 SGLang、vLLM 等推理框架，通过 MTP 能提升效率或吞吐量，还可借助 Qwen-Agent 充分发挥代理能力。

qwen3-Next特别适合长输入及多轮对话的高效输出与高吞吐，非常适合代码助手。

实验室同时提供了采样参数设置、输出长度保障等最佳实践建议，以及引用信息，方便用户使用与研究。

代码使用

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Next-80B-A3B-Instruct"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCau...

点击查看剩余70%

打赏博主×

阿里开源qwen3-Next-80B-A3B-Instruct：重新定义高效大模型的技术标杆

网友评论

{{item.title}}

threejs如何做个三维搭积木的游戏？

three如何实现标记多个起始路过地点位置后选择旅行工具（飞机汽车高铁等），最后三维模拟行驶动画导出mp4？

ai实时驱动的3d数字人可视频聊天的开源技术有吗

swoole+phpfpm如何实现不同域名指向不同目录的多租户模式？

如何用go替换nginx实现请求phpfpm解析运行php脚本？

有没有浏览器离线运行进行各种文档、图片、视频格式转换的开源工具？

如何使用go语言搭建一个web防火墙？

linux如何检测特定网络协议比如http协议中报文是否包含特点关键词并阻止返回给客户？

如果在nginx外过滤包含某些关键词的网页并阻止打开？

程序员怎么做副业赚钱？