斯坦福开源机器人小羊驼Vicuna,130亿参数匹敌90%ChatGPT

斯坦福开源机器人小羊驼Vicuna,130亿参数匹敌90%ChatGPT

Vicuna-13B是一个开源的聊天机器人,通过对从ShareGPT收集的用户共享对话进行微调的LLaMA训练。以GPT-4为评判标准的初步评估显示,Vicuna-13B达到了OpenAI ChatGPT和Google Bard 90%*以上的质量,同时在90%*以上的情况下超过了LLaMA和Stanford Alpaca等其他模型的表现。训练Vicuna-13B的成本约为300美元。训练和服务代码,以及在线演示,都是公开的,可用于非商业用途。
800_auto

Vicuna有多好?

我们展示了Alpaca和Vicuna对我们基准问题的回答的例子。在用7万个用户共享的ChatGPT对话对Vicuna进行微调后,我们发现,与Alpaca相比,Vicuna能够生成更详细和结构良好的答案(见下面的例子),其质量与ChatGPT相当。

问题:撰写一篇引人入胜的旅行博客文章,介绍最近的夏威夷之旅,重点介绍文化体验和必看景点。

800_auto

800_auto

然而,评估聊天机器人从来都不是一件容易的事。随着 GPT-4 的最新进展,我们很好奇它的功能是否已经达到了类似人类的水平,可以为基准生成和性能评估启用自动化评估框架。我们的初步发现表明,在比较聊天机器人的答案时,GPT-4 可以产生高度一致的排名和详细的评估(参见上面的 GPT-4 判断示例)。 基于 GPT-4 的初步评估(如图 1 所示)表明,鬆马实现了 Bard/ChatGPT 的 90% 能力。虽然这个提议的框架显示出自动化聊天机器人评估的潜力,但它还不是一种严格的方法。为聊天机器人建立评估系统仍然是一个悬而未决的问题,需要进一步研究。评估部分提供了更多详细信息。

800_auto

在线演示:https://chat.lmsys.org/

概述

大型语言模型(LLM)的快速发展彻底改变了聊天机器人系统,产生了前所未有的智能水平,如OpenAI的ChatGPT所示。然而,尽管其性能令人印象深刻,但 ChatGPT 的培训和架构细节仍然不清楚,阻碍了该领域的研究和开源创新。受Meta LLaMA和斯坦福Alpaca项目的启发,我们推出了Vicuna-13B,这是一款开源聊天机器人,由增强的数据集和易于使用的可扩展基础架构提供支持。通过根据从 ShareGPT.com 收集的用户共享对话微调LLaMA基础模型,Vicuna-13B与斯坦福Alpaca等其他开源模型相比,表现出了有竞争力的性能。这篇博文提供了对Vicun...

点击查看剩余70%

{{collectdata}}

网友评论