谷歌开源多模态模型 TIPSv2：文本驱动精准图像分割

私信我

800_auto

近日，谷歌 DeepMind 正式开源多模态预训练模型 TIPSv2（Text-Image Pretraining with Spatial awareness v2），聚焦图像块与文本的密集对齐，实现文本描述引导下的物体边界精准分割，相关成果已被 CVPR 2026 接收。

800_auto

T...

点击查看剩余70%

私信我

最新提问

打赏博主×