谷歌推出新的开源视觉语言模型 PaliGemma 2,可识别情绪

谷歌推出新的开源视觉语言模型 PaliGemma 2,可识别情绪

800_auto

PaliGemma 2 是谷歌推出的最新版开放式视觉语言模型,继 Gemma 2 之后引起了广泛关注。

该模型拥有强大的功能,可提供长字幕,为图像生成详细且与上下文相关的字幕,不仅能进行简单的物体识别,还能描述动作、情感和场景的整体叙述。

800_auto

PaliGemma 2 可用的模型尺寸包括 3B、10B 和 28B 参数,以及 224px、448px 和 896px 分辨率。

它在化学公式识别、乐谱识别、空间推理和胸部 X 光报告生成方面性能领先,还能准确地进行光学字符识别和理解文档中表格的结构和内容。

谷歌表示,其设计目的是直接替代使用原模型的用户。

此外,PaliGemma 2 最大的亮点在于其情...

点击查看剩余70%

{{collectdata}}

网友评论