谷歌开源全新的视觉语言模型PaliGemma 2 Mix

谷歌开源全新的视觉语言模型PaliGemma 2 Mix

800_auto

谷歌于2025年2月19日发布了全新的视觉语言模型PaliGemma 2 Mix。该模型是PaliGemma 2系列的升级版本,专为多任务处理设计,能够在一个模型中完成多种视觉和语言任务。

主要功能

PaliGemma 2 Mix支持以下功能:

图像描述:生成短文本和长文本的图像描述。

光学字符识别(OCR):识别图像中的文字内容。

800_auto

目标检测与图像分割:检测并定位图像中的物体,并进行语义分割。

800_auto

视觉问答(VQA):用户可通过上传图片并提问,模型会分析图片并给出答案。

800_auto

文档理解:分析文档图像内容,支持图表和图解分析。

800_auto

科学问题解答:理解和回答复杂的科学问题。

模型特点

多种规模选择:提供3B、10B和28B三种参数规模的模型,以满足不同计算资源和任务需求。

多分辨率支持:支持224px和448px两种图像输入分辨率。

开发者友好:兼容Hugging Face Transformers、Keras、PyTorch、JAX和Gemma.cpp等主流框架。

即插即用:模型经过多任务微调,可以直接使用,无需额外训练。

技术架构

PaliGemma 2 Mix由以下三个核心组件构成:

SigLIP图像编码器:将图像转换为token序列。

Gemma-2B语言模型:处理文本输入和生成输出。

线性投影层:将图像token与文本token融合,实现多模态交互。

部署与使用

PaliGemma 2 Mi...

点击查看剩余70%

{{collectdata}}

网友评论