清华多模态模型正式开源,支持本地部署及消费级显卡

清华多模态模型正式开源,支持本地部署及消费级显卡

VisualGLM-6B是一个开源的多模态对话语言模型,支持图像、中文和英文。它基于ChatGLM-6B语言模型,具有62亿参数,并通过BLIP2-Qformer训练了视觉模型。整体模型参数达到78亿。

800_auto

VisualGLM-6B使用了CogView数据集中的30M中文图文对和经过筛选的300M英文图文对进行预训练,中英文权重相同。这种训练方式有效地将视觉信息与Chat...

点击查看剩余70%

{{collectdata}}

网友评论