效率高、成本低的开源AI大模型推理系统vLLM发布-BFW编程笔记

效率高、成本低的开源AI大模型推理系统vLLM发布

vLLM是一款开源的LLM推理和服务引擎。它采用最新的数据注意力算法「PagedAttention」,有效地管理注意力键和值。

800_auto

配备最新算法的vLLM重新定义了LLM服务的技术水平:

与HuggingFace Transformers相比,vLLM提供高达24倍的吞吐量,而无需进行任何模型架构更改。 800_auto

值得一提的是,聊天机器人Vicuna在演示中使用的就是FastChat和vLLM的集成版本。

正如研究人员所说,vLLM最大的优点是提供易于使用、快速、低成本的LLM服务。

这意味着,未来,即使对于像LMSYS这样计算资源有限的小型研究团队,也能轻松部署自己的LLM服务。

VLLM能无缝支持的HuggingFace模型,包括以下架构:

GPT-2(gpt2、gpt2-xl等)

GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm...

点击查看剩余70%

打赏博主×