斯坦福开源机器人小羊驼Vicuna，130亿参数匹敌90%ChatGPT-BFW编程笔记

斯坦福开源机器人小羊驼Vicuna，130亿参数匹敌90%ChatGPT

Vicuna-13B是一个开源的聊天机器人，通过对从ShareGPT收集的用户共享对话进行微调的LLaMA训练。以GPT-4为评判标准的初步评估显示，Vicuna-13B达到了OpenAI ChatGPT和Google Bard 90%*以上的质量，同时在90%*以上的情况下超过了LLaMA和Stanford Alpaca等其他模型的表现。训练Vicuna-13B的成本约为300美元。训练和服务代码，以及在线演示，都是公开的，可用于非商业用途。
800_auto

Vicuna有多好？

我们展示了Alpaca和Vicuna对我们基准问题的回答的例子。在用7万个用户共享的ChatGPT对话对Vicuna进行微调后，我们发现，与Alpaca相比，Vicuna能够生成更详细和结构良好的答案（见下面的例子），其质量与ChatGPT相当。

问题：撰写一篇引人入胜的旅行博客文章，介绍最近的夏威夷之旅，重点介绍文化体验和必看景点。

800_auto

800_auto

然而，评估聊天机器人从来都不是一件容易的事。随着 GPT-4 的最新进展，我们很好奇它的功能是否已经达到了类似人类的水平，可以为基准生成和性能评估启用自动化评估框架。我们的初步发现表明，在比较聊天机器人的答案时，GPT-4 可以产生高度一致的排名和详细的评估（参见上面的 GPT-4 判断示例）。基于 GPT-4 的初步评估（如图 1 所示）表明，鬆马实现了 Bard/ChatGPT 的 90% 能力。虽然这个提议的框架显示出自动化聊天机器人评估的潜力，但它还不是一种严格的方法。为聊天机器人建立评估系统仍然是一个悬而未决的问题，需要进一步研究。评估部分提供了更多详细信息。

800_auto

在线演示：https://chat.lmsys.org/

概述

大型语言模型（LLM）的快速发展彻底改变了聊天机器人系统，产生了前所未有的智能水平，如OpenAI的ChatGPT所示。然而，尽管其性能令人印象深刻，但 ChatGPT 的培训和架构细节仍然不清楚，阻碍了该领域的研究和开源创新。受Meta LLaMA和斯坦福Alpaca项目的启发，我们推出了Vicuna-13B，这是一款开源聊天机器人，由增强的数据集和易于使用的可扩展基础架构提供支持。通过根据从 ShareGPT.com 收集的用户共享对话微调LLaMA基础模型，Vicuna-13B与斯坦福Alpaca等其他开源模型相比，表现出了有竞争力的性能。这篇博文提供了对Vicun...

点击查看剩余70%

打赏博主×

斯坦福开源机器人小羊驼Vicuna，130亿参数匹敌90%ChatGPT

网友评论

{{item.title}}

ai意识空间j-空间到底是啥？

在powershell中运行Ubuntu的wsl2如何运行有ui窗体的python程序？

python如何提取视频中人物的深度信息？

如果ai不受控制攻击现有网络软件系统会怎么样？

未来的操作系统会不会都是基于ai吗？

kimi-k3与qwen-3.8及deepseek-v4正式版到底哪个更强？

veo与哦Omni免费体验网站哪有？

gemini免费api可以使用哪些模型和限制？

抖音版权中心提交的短剧被人搬运到其他平台如何维权？

大模型越来越像loop agent了，越来越耗时了