阿里开源400万tokens上下文的ai模型Qwen-Long L1.5

2025 年 12 月,阿里巴巴通义实验室正式推出长文本推理专家模型 Qwen-Long L1.5,该模型基于 Qwen3-30B-A3B 架构打造,以仅 30B 参数(激活参数 3B)实现与 GPT-5、Gemini-2.5-Pro 相媲美的长文本推理能力。
模型核心突破在于三大创新技术:
一是多跳推理数据合成流水线,用知识图谱、SQL 解析等生成高质量训练数据,MRCR 任务得分提升 31.72 分;
二是自适应熵控制优化(AEPO)算法,解决长文本训练不稳定问题;
三是记忆管理框架,突破物理上下文窗口限制,可处理 100 万 - 400 万个 token(约 400 万字)的超长文本。

在 LongBench - V2 等权威基准测试中,其较基线模型平均分提升 9.9 分,百万级 token 任务性能增益达 9.48 分。同时数学推理、科学推理等通用能力同步提升,AIME25 数学竞赛得分提高 3.65 分。

目前模型已开源,将为金融财报分析、法律文档解读、学术研究等长文本场景提供高效支撑。
https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B
https://github.com/Tongyi-Zhiwen/Qwen-Doc/tree/main/QwenLong-L1.5
?使用示例代码;
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B" # load the tokenizer and the model tokenizer...
点击查看剩余70%
网友评论