媲美gpt4可以看图语音聊天的多模态大型模型LLaVA来了-BFW编程笔记

媲美gpt4可以看图语音聊天的多模态大型模型LLaVA来了

近日，威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了名为LLaVA的多模态大型模型。与传统的单模态模型相比，LLaVA可以处理图像、文本和语音等多种输入模态，从而更好地理解人类的意图和需求。

LLaVA展现了一些接近多模态GPT-4的图文开解能力，相对于GPT-4获得了85.1%的相对得分。在科学问答上进行微调时，LLaVA和GPT-4的协同作用实现了92.53%的准确率的新SOTA。