字节开源媲美gpt4o图片编辑的统一多模态模型BAGEL
BAGEL 是一个开源的统一多模态模型,可以处理图像和文本的输入和输出。
BAGEL具有深度思考理解图片能力、编辑图片能力、图片动起来、风格转换、3d旋转、扩图、导航七大强大的图片理解和编辑能力。
BAGEL采用了混合Transformer专家(MoT)架构,结合两个独立的视觉编码器,分别捕捉图像的像素级和语义级特征。
这种架构由两个Transformer专家组成,一个专注于多模态理解,另一个专注于多模态生成。
整体框架遵循“下一个token组预测”范式,通过大规模交错多模态数据进行预训练、持续训练和有监督微调,具备强大的理解与生成能力。
涌...
点击查看剩余70%
网友评论