让HuggingGPT帮你选择大模型！-BFW编程笔记

让HuggingGPT帮你选择大模型！

? 随着ChatGPT的火爆以及MetaAI开源了LLaMA，各家公司好像一夜之间都有了各种ChatGPT模型的研发实力。而针对不同任务和应用构建的LLM更是层出不穷。那么，如何选择合适的模型完成特定的任务，甚至是使用多个模型完成一个复杂的任务似乎仍然很困难。为此，浙江大学与微软亚洲研究院联合发布了一个大模型写作系统HuggingGPT，可以根据输入的任务帮我们选择合适的大模型解决！

HuggingGPT利用ChatGPT读取HuggingFace上所有的模型接口，然后根据你的输入分解成不同任务交给不同的模型执行。这意味着你可以毫不费力的拥有完整的多模态能力，图片、文本、视频、语音甚至是3D任务等，都可以完全由文本输入后与各种模型交互产生最终结果，也就是可以做出任意的text-to-image-to-video-to-text-to-speech！绝对的好idea啊！

本文主要介绍一下这个HuggingGPT！

一、当前LLMs的缺陷

尽管大模型取得了如此巨大的成功，但当前的LLM技术仍然存在缺陷，面临着建立AGI系统的一些紧迫挑战。

受限于文本生成的输入和输出形式，当前LLMs缺乏处理复杂信息（如视觉和语音）的能力；

在实际应用场景中，一些复杂任务通常由多个子任务组成，因此需要多个模型的调度和协作，这也超出了语言模型的能力范围；

对于一些具有挑战性的任务，LLMs在零样本或少样本设置下表现出优异的结果，但它们仍然不如一些专家（如微调模型）强。

为了处理复杂的人工智能任务，LLMs应该能够与外部模型协调以利用它们的能力。因此，关键点在于如何选择合适的中间件来桥接LLMs和人工...

点击查看剩余70%

打赏博主×

让HuggingGPT帮你选择大模型！

网友评论

{{item.title}}

如何破解绕开seedance2.0真人照片生成视频限制？

python有哪些算法可以将视频中的每个帧图片去除指定区域水印合成新的视频？

iphone的激光雷达数据能否实时传输到three三维空间中？

豆包sora等ai视频生成大模型生成的视频水印如何去除？

python如何实现在电脑上拨号打电话给手机？

具身机器人与人形机器人区别？

nodejs如何将一个完整的js代码文件切割成不同的部分混淆后动态加载进入html运行？

为啥windows.onerror捕获js错误是这样的{"message":"Script error.","source":"","lineno":0,"colno":0,"stack":null,

2026年ai将全面接管编程？

WebMCP是干啥的？