媲美gpt4可以看图语音聊天的多模态大型模型LLaVA来了
近日,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了名为LLaVA的多模态大型模型。与传统的单模态模型相比,LLaVA可以处理图像、文本和语音等多种输入模态,从而更好地理解人类的意图和需求。
LLaVA展现了一些接近多模态GPT-4的图文开解能力,相对于GPT-4获得了85.1%的相对得分。在科学问答上进行微调时,LLaVA和GPT-4的协同作用实现了92.53%的准确率的新SOTA。
这表明人工智能能够有效地...
点击查看剩余70%
网友评论