字节多模态视频大模型Vidi2重磅发布,视频理解能力超越Gemini 3 Pro

字节多模态视频大模型Vidi2重磅发布,视频理解能力超越Gemini 3 Pro

近日,一款专注于视频理解与创作的大型多模态模型Vidi2正式亮相。

800_auto

该模型作为Vidi系列的迭代升级版本,在空间时间对象定位、视频问答等核心任务中取得领先成果,不仅在权威数据集上表现超越多款主流私有系统,更为智能视频创作领域开辟了全新可能。

800_auto

据了解,Vidi2的核心突破在于实现了端到端的空间时间精细化处理能力。

针对文本查询,该模型能够精准识别对应的视频时间戳,并自动标记出时间范围内目标对象的边界框,这种“时空双精准”的特性使其在复杂视频剪辑场景中具备极强的应用潜力,例如助力剧情与角色深度理解、实...

点击查看剩余70%

{{collectdata}}

网友评论