字节发布视觉多模态理解与推理模型Seed1.5-VL

字节发布视觉多模态理解与推理模型Seed1.5-VL

800_auto

字节跳动旗下的Seed团队于2025年5月13日正式发布了视觉-语言多模态大模型 Seed1.5-VL。

这款模型在多模态理解与推理方面展现出了显著增强的能力,同时在成本控制上也实现了大幅下降。

Seed1.5-VL在60项公开的评测基准测试中,有38项取得了业界领先的SOTA(State of the Art)成绩。

800_auto

技术特点

800_auto

轻量级架构:Seed1.5-VL由532M参数的视觉编码器SeedViT和20B参数的MoE(混合专家)语言模型构成,通过分阶段预训练和强化学习策略,实现视觉与语言模态的高效融合。

高效架构设计:视觉编码器支持任意长宽比图像输入,结合MLP适配器优化特征投影...

点击查看剩余70%

{{collectdata}}

网友评论