google开源自己视觉模型PaliGemma

google开源自己视觉模型PaliGemma

800_auto

PaliGemma 是一款功能强大的开放式视觉语言模型(VLM),灵感来自于 PaLl-3。

它基于 SigLIP 视觉模型和 Gemma 语言模型等开放资源构建而成,旨在实现在各种视觉语言任务上一流的微调性能。

800_auto

PaliGemma可对理解图像和短视频字幕、视觉问答、理解图像中的文本对象检...

点击查看剩余70%

{{collectdata}}

网友评论