基于 Rust 比llama.cpp更快的推理引擎Mistral.rs-BFW编程笔记

基于 Rust 比llama.cpp更快的推理引擎Mistral.rs

Mistral.rs 是一个基于 Rust 的推理引擎，专为本地大型语言模型提供快速服务。

它建立在 Hugging Face 的 Candle 框架之上，具备多项先进特性，如 Flash 注意力机制第二版、前缀缓存、2-8 位量化、持续批处理和 LoRA（低秩适应器）。

该引擎支持多种模型，包括 Llama 3、Mistral、Gemma、X-LoRA 混合专家（MoE）模型等。

此外，Mistral.rs 已经与 LlamaIndex 集成，并且支持多种架构，包括 NVIDIA。

Mistral.rs的推理速度快与llama.cpp

800_auto

代码

from mistralrs import Runner, Which, Cha...

点击查看剩余70%

打赏博主×