7B参数的小型混合SSM注意力架构AI模型的王者zamba 2来了-BFW编程笔记

7B参数的小型混合SSM注意力架构AI模型的王者zamba 2来了

800_auto

Zamba 2是Zyphra公司发布的一款先进的小型语言模型，它在7B（7亿参数）规模上表现出色，超越了Mistral、Google的Gemma和Meta的Llama3系列等同级模型。

Zamba 2在推理效率上比Llama3-8B等模型快25%，每秒处理的token数量提高了20%，并且内存使用量显著减少。

800_auto

Zamba 2的架构进行了多项改进，包括使用Mamba2块替换Mamba1块，采用两个共享注意力块以ABAB模式交错排列，以及对每个共享MLP块应用LoRA投影器。此外，Zamba 2的模型权重已开源发布（Apache 2.0许可证）。

800_auto

Zamba 2在标准语言建模评估集上的表现非常出色，尤其是在延迟和生成速度方面。

在所有小于或等于8B参数的小语言模型中，Za...

点击查看剩余70%

打赏博主×