字节开源1小时长视频理解和自动剪辑成精华短视频大模型Vidi-BFW编程笔记

字节开源1小时长视频理解和自动剪辑成精华短视频大模型Vidi

800_auto

字节跳动近日宣布推出其最新研发的多模态模型Vidi，该模型基于字节自研的VeOmni框架，融合时间增强变换器与多模态编码器，重塑超长视频理解与编辑技术，为视频内容创作、智能分析和推荐系统等领域带来突破性进展。

Vidi的核心优势在于其对超长视频的理解能力。

800_auto

通过时间增强变换器，Vidi能够精准捕捉视频中的时空关系，显著提升时间检索的准确率。在ActivityNet数据集上的测试显示，Vidi的时间检索准确率较GPT-4o高出约10%，较Gemini 1.5 Pro高出约12%。此外，Vidi还采用了多模态编码器，将视频帧、音频波形与文本嵌入进行融合，支持跨模态语义对齐，减少信息丢失。在Youku-mPLUG数据集的视频问答任务中，Vidi的综合得分超越...

点击查看剩余70%

打赏博主×

字节开源1小时长视频理解和自动剪辑成精华短视频大模型Vidi

网友评论

{{item.title}}

什么是1-bit模型？

如何通过1公里内点对点的蓝牙通讯建立聊天系统？

ai意识空间j-空间到底是啥？

在powershell中运行Ubuntu的wsl2如何运行有ui窗体的python程序？

python如何提取视频中人物的深度信息？

如果ai不受控制攻击现有网络软件系统会怎么样？

未来的操作系统会不会都是基于ai吗？

kimi-k3与qwen-3.8及deepseek-v4正式版到底哪个更强？

veo与哦Omni免费体验网站哪有？

gemini免费api可以使用哪些模型和限制？