效率高、成本低的开源AI大模型推理系统vLLM发布
vLLM是一款开源的LLM推理和服务引擎。它采用最新的数据注意力算法「PagedAttention」,有效地管理注意力键和值。
与HuggingFace Transformers相比,vLLM提供高达24倍的吞吐量,而无需进行任何模型架构更改。
这意味着,未来,即使对于像LMSYS这样计算资源有限的小型研究团队,也能轻松部署自己的LLM服务。
VLLM能无缝支持的HuggingFace模型,包括以下架构:
GPT-2(gpt2、gpt2-xl等)
GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm...
点击查看剩余70%
网友评论