7B参数的小型混合SSM注意力架构AI模型的王者zamba 2来了
Zamba 2是Zyphra公司发布的一款先进的小型语言模型,它在7B(7亿参数)规模上表现出色,超越了Mistral、Google的Gemma和Meta的Llama3系列等同级模型。
Zamba 2在推理效率上比Llama3-8B等模型快25%,每秒处理的token数量提高了20%,并且内存使用量显著减少。
Zamba 2的架构进行了多项改进,包括使用Mamba2块替换Mamba1块,采用两个共享注意力块以ABAB模式交错排列,以及对每个共享MLP块应用LoRA投影器。此外,Zamba 2的模型权重已开源发布(Apache 2.0许可证)。
Zamba 2在标准语言建模评估集上的表现非常出色,尤其是在延迟和生成速度方面。
在所有小于或等于8B参数的小语言模型中,Za...
点击查看剩余70%
网友评论