OpenGVLa发布InternGPT,点击鼠标,让AI更懂视觉任务
近日,上海人工智能实验室OpenGVLab团队推出基于光标指令的多模态交互系统InternGPT。用鼠标点一点,即可精确传达指令,让AI执行7种视觉任务。
InternGPT 的名称代表了 interaction(交互)、nonverbal(非语言)和 ChatGPT。与依赖纯语言的现有交互系统不同,通过整合指向指令,iGPT 显著提高了用户与聊天机器人之间的沟通效率,以及聊天机器人在视觉为中心任务中的准确性,特别是在复杂的视觉场景中。
此外,在 iGPT 中,采用辅助控制机制来提高 LLM 的控制能力,并对一个大型视觉 - 语言模型 Husky 进行微调,以实现高质量的多模态对话(在 ChatGPT-3.5-turbo 评测中达到 93.89% GPT-4 质量)。
论文:https://arxiv.org/abs/22...
点击查看剩余70%
网友评论