谷歌开源多模态模型 TIPSv2:文本驱动精准图像分割

谷歌开源多模态模型 TIPSv2:文本驱动精准图像分割

800_auto

近日,谷歌 DeepMind 正式开源多模态预训练模型 TIPSv2(Text-Image Pretraining with Spatial awareness v2),聚焦图像块与文本的密集对齐,实现文本描述引导下的物体边界精准分割,相关成果已被 CVPR 2026 接收。

800_auto

T...

点击查看剩余70%

{{collectdata}}

网友评论