字节开源媲美gpt4o图片编辑的统一多模态模型BAGEL-BFW编程笔记

字节开源媲美gpt4o图片编辑的统一多模态模型BAGEL

800_auto

BAGEL 是一个开源的统一多模态模型，可以处理图像和文本的输入和输出。

BAGEL具有深度思考理解图片能力、编辑图片能力、图片动起来、风格转换、3d旋转、扩图、导航七大强大的图片理解和编辑能力。

800_auto

BAGEL采用了混合Transformer专家（MoT）架构，结合两个独立的视觉编码器，分别捕捉图像的像素级和语义级特征。

800_auto

这种架构由两个Transformer专家组成，一个专注于多模态理解，另一个专注于多模态生成。

整体框架遵循“下一个token组预测”范式，通过大规模交错多模态数据进行预训练、持续训练和有监督微调，具备强大的理解与生成能力。

涌...

点击查看剩余70%

打赏博主×