基于 Rust 比llama.cpp更快的推理引擎Mistral.rs

基于 Rust 比llama.cpp更快的推理引擎Mistral.rs

Mistral.rs 是一个基于 Rust 的推理引擎,专为本地大型语言模型提供快速服务。

它建立在 Hugging Face 的 Candle 框架之上,具备多项先进特性,如 Flash 注意力机制第二版、前缀缓存、2-8 位量化、持续批处理和 LoRA(低秩适应器)。

该引擎支持多种模型,包括 Llama 3、Mistral、Gemma、X-LoRA 混合专家(MoE)模型等。

此外,Mistral.rs 已经与 LlamaIndex 集成,并且支持多种架构,包括 NVIDIA。

Mistral.rs的推理速度快与llama.cpp

800_auto

代码

from mistralrs import Runner, Which, Cha...

点击查看剩余70%

{{collectdata}}

网友评论