基于 Rust 比llama.cpp更快的推理引擎Mistral.rs
Mistral.rs 是一个基于 Rust 的推理引擎,专为本地大型语言模型提供快速服务。
它建立在 Hugging Face 的 Candle 框架之上,具备多项先进特性,如 Flash 注意力机制第二版、前缀缓存、2-8 位量化、持续批处理和 LoRA(低秩适应器)。
该引擎支持多种模型,包括 Llama 3、Mistral、Gemma、X-LoRA 混合专家(MoE)模型等。
此外,Mistral.rs 已经与 LlamaIndex 集成,并且支持多种架构,包括 NVIDIA。
Mistral.rs的推理速度快与llama.cpp
代码
from mistralrs import Runner, Which, Cha...
点击查看剩余70%
网友评论