阿里开源400万tokens上下文的ai模型Qwen-Long L1.5-BFW编程笔记

阿里开源400万tokens上下文的ai模型Qwen-Long L1.5

800_auto

2025 年 12 月，阿里巴巴通义实验室正式推出长文本推理专家模型 Qwen-Long L1.5，该模型基于 Qwen3-30B-A3B 架构打造，以仅 30B 参数（激活参数 3B）实现与 GPT-5、Gemini-2.5-Pro 相媲美的长文本推理能力。

模型核心突破在于三大创新技术：

一是多跳推理数据合成流水线，用知识图谱、SQL 解析等生成高质量训练数据，MRCR 任务得分提升 31.72 分；

二是自适应熵控制优化（AEPO）算法，解决长文本训练不稳定问题；

三是记忆管理框架，突破物理上下文窗口限制，可处理 100 万 - 400 万个 token（约 400 万字）的超长文本。

800_auto

在 LongBench - V2 等权威基准测试中，其较基线模型平均分提升 9.9 分，百万级 token 任务性能增益达 9.48 分。同时数学推理、科学推理等通用能力同步提升，AIME25 数学竞赛得分提高 3.65 分。

800_auto

目前模型已开源，将为金融财报分析、法律文档解读、学术研究等长文本场景提供高效支撑。

https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B

https://github.com/Tongyi-Zhiwen/Qwen-Doc/tree/main/QwenLong-L1.5

?使用示例代码；

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B"

# load the tokenizer and the model
tokenizer...

点击查看剩余70%

打赏博主×

阿里开源400万tokens上下文的ai模型Qwen-Long L1.5

网友评论

{{item.title}}

有没有视频高清的免费开源项目？

豆包的办公模式分配的虚拟机如何保火获得外网访问ip？

什么是 Loop Engineering ？

最强图片ai模型gpt-image2 api价格最低3分一张，国内落后图片ai模型都是2毛一张？

CLAUDE-FABLE-5的系统提示词是啥？

顶级ai大模型为啥都进入收费和地域限制？

微信和抖音视频压缩算法是什么，10s视频压缩陈1m以下还很清晰？

如果ai比人类还聪明，高考还有必要吗？

听说AirLLM能让4GB显存普通电脑也能跑70B大模型？

即梦seedance2的提示词写作教程指南skills怎么写？