7B参数的小型混合SSM注意力架构AI模型的王者zamba 2来了

7B参数的小型混合SSM注意力架构AI模型的王者zamba 2来了

800_auto

Zamba 2是Zyphra公司发布的一款先进的小型语言模型,它在7B(7亿参数)规模上表现出色,超越了Mistral、Google的Gemma和Meta的Llama3系列等同级模型。

Zamba 2在推理效率上比Llama3-8B等模型快25%,每秒处理的token数量提高了20%,并且内存使用量显著减少。

800_auto

Zamba 2的架构进行了多项改进,包括使用Mamba2块替换Mamba1块,采用两个共享注意力块以ABAB模式交错排列,以及对每个共享MLP块应用LoRA投影器。此外,Zamba 2的模型权重已开源发布(Apache 2.0许可证)。

800_auto

Zamba 2在标准语言建模评估集上的表现非常出色,尤其是在延迟和生成速度方面。

在所有小于或等于8B参数的小语言模型中,Za...

点击查看剩余70%

{{collectdata}}

网友评论