阿里开源Qwen3-VL-30B-A3B视觉模型 轻量参数媲美主流大模型Claude4与gpt5

阿里开源Qwen3-VL-30B-A3B视觉模型 轻量参数媲美主流大模型Claude4与gpt5

800_auto

10 月 4 日,阿里云通义千问宣布开源 Qwen3-VL-30B-A3B-Instruct 与 Thinking 两款视觉语言模型,同步推出超大规模模型 Qwen3-VL-235B-A22B 的 FP8 版本,引发行业广泛关注。

800_auto

此次开源的 30 亿参数轻量模型实现性能突破,在 STEM、视觉问答、OCR、视频理解等领域表现媲美甚至超越 GPT-5-Mini 与 Claude4-Sonnet。

800_auto

其核心升级包括原生 256K 可扩展至 1M 的长上下文,能处理整本书籍或数小时视频;OCR 支持 32 种语言,优化了低光、模糊场景及古文字识别能力。

800_auto

模型还具备视觉代理能力,可操作设备图形界面完成任务,且能从音视频生成代码与流程图,空间感知能力为 3D 推理奠定基础。

华为昇腾平台已实现 “零日适配”,开发者可通过魔搭社区、Hugging Face 免费下载,Qwen Chat 同步上线降低使用门槛。

业内认为,该模型兼顾轻量性与强性能,为工业检测、教育、内容创作等场景提供灵活解决方案,推动多模态 AI 落地。

使用代码

from modelscope import Qwen3VLMoeForConditionalGeneration, AutoProcessor

# default: Load the model on the available device(s)
model = Qwen3VLMoeForConditionalGeneration.from_pretrained(
    "Qwen/Qwe...

点击查看剩余70%

{{collectdata}}

网友评论