字节开源1小时长视频理解和自动剪辑成精华短视频大模型Vidi
字节跳动近日宣布推出其最新研发的多模态模型Vidi,该模型基于字节自研的VeOmni框架,融合时间增强变换器与多模态编码器,重塑超长视频理解与编辑技术,为视频内容创作、智能分析和推荐系统等领域带来突破性进展。
Vidi的核心优势在于其对超长视频的理解能力。
通过时间增强变换器,Vidi能够精准捕捉视频中的时空关系,显著提升时间检索的准确率。在ActivityNet数据集上的测试显示,Vidi的时间检索准确率较GPT-4o高出约10%,较Gemini 1.5 Pro高出约12%。此外,Vidi还采用了多模态编码器,将视频帧、音频波形与文本嵌入进行融合,支持跨模态语义对齐,减少信息丢失。在Youku-mPLUG数据集的视频问答任务中,Vidi的综合得分超越...
点击查看剩余70%
网友评论