OpenGVLa发布InternGPT，点击鼠标，让AI更懂视觉任务-BFW编程笔记

OpenGVLa发布InternGPT，点击鼠标，让AI更懂视觉任务

近日，上海人工智能实验室OpenGVLab团队推出基于光标指令的多模态交互系统InternGPT。用鼠标点一点，即可精确传达指令，让AI执行7种视觉任务。

800_auto

InternGPT 的名称代表了 interaction(交互)、nonverbal(非语言)和 ChatGPT。与依赖纯语言的现有交互系统不同,通过整合指向指令,iGPT 显著提高了用户与聊天机器人之间的沟通效率,以及聊天机器人在视觉为中心任务中的准确性,特别是在复杂的视觉场景中。

此外,在 iGPT 中,采用辅助控制机制来提高 LLM 的控制能力,并对一个大型视觉 - 语言模型 Husky 进行微调,以实现高质量的多模态对话(在 ChatGPT-3.5-turbo 评测中达到 93.89% GPT-4 质量)。

论文:https://arxiv.org/abs/22...

点击查看剩余70%

打赏博主×