智源开源轻量级场视频理解模型Video-XL-2-BFW编程笔记

智源开源轻量级场视频理解模型Video-XL-2

800_auto

近日，智源研究院联合上海交通大学等机构，正式发布了新一代超长视频理解模型 Video-XL-2。

相较于上一版本的 Video-XL，该模型在多个维度全面优化了多模态大模型对长视频内容的理解能力

性能提升

效果更佳：Video-XL-2 在长视频理解任务中表现出色，在 MLVU、Video-MME、LVBench 等主流评测基准上达到了同参数规模开源模型的领先水平。

800_auto

长度更长：新模型显著扩展了可处理视频的时长，支持在单张显卡上高效处理长达万帧的视频输入。

800_auto

速度更快：Video-XL-2 大幅提升了处理效率，编码 2048 帧视频仅需 12 秒，显著加速长视频理解流程。

技术架构

Video-XL-2 的模型架构主要由三个核心组件构成：

800_auto

视觉编码器（Visual Encoder）：采用 ...

点击查看剩余70%

打赏博主×