字节多模态视频大模型Vidi2重磅发布，视频理解能力超越Gemini 3 Pro-BFW编程笔记

字节多模态视频大模型Vidi2重磅发布，视频理解能力超越Gemini 3 Pro

近日，一款专注于视频理解与创作的大型多模态模型Vidi2正式亮相。

800_auto

该模型作为Vidi系列的迭代升级版本，在空间时间对象定位、视频问答等核心任务中取得领先成果，不仅在权威数据集上表现超越多款主流私有系统，更为智能视频创作领域开辟了全新可能。

800_auto

据了解，Vidi2的核心突破在于实现了端到端的空间时间精细化处理能力。

针对文本查询，该模型能够精准识别对应的视频时间戳，并自动标记出时间范围内目标对象的边界框，这种“时空双精准”的特性使其在复杂视频剪辑场景中具备极强的应用潜力，例如助力剧情与角色深度理解、实...

点击查看剩余70%

打赏博主×