阿里开源Qwen3-VL-30B-A3B视觉模型 轻量参数媲美主流大模型Claude4与gpt5

10 月 4 日,阿里云通义千问宣布开源 Qwen3-VL-30B-A3B-Instruct 与 Thinking 两款视觉语言模型,同步推出超大规模模型 Qwen3-VL-235B-A22B 的 FP8 版本,引发行业广泛关注。

此次开源的 30 亿参数轻量模型实现性能突破,在 STEM、视觉问答、OCR、视频理解等领域表现媲美甚至超越 GPT-5-Mini 与 Claude4-Sonnet。

其核心升级包括原生 256K 可扩展至 1M 的长上下文,能处理整本书籍或数小时视频;OCR 支持 32 种语言,优化了低光、模糊场景及古文字识别能力。

模型还具备视觉代理能力,可操作设备图形界面完成任务,且能从音视频生成代码与流程图,空间感知能力为 3D 推理奠定基础。
华为昇腾平台已实现 “零日适配”,开发者可通过魔搭社区、Hugging Face 免费下载,Qwen Chat 同步上线降低使用门槛。
业内认为,该模型兼顾轻量性与强性能,为工业检测、教育、内容创作等场景提供灵活解决方案,推动多模态 AI 落地。
使用代码
from modelscope import Qwen3VLMoeForConditionalGeneration, AutoProcessor
# default: Load the model on the available device(s)
model = Qwen3VLMoeForConditionalGeneration.from_pretrained(
"Qwen/Qwe...点击查看剩余70%
网友评论