MiniMax开源其首个100万tokens上下文推理模型MiniMax-M1

MiniMax开源其首个100万tokens上下文推理模型MiniMax-M1

800_auto

MiniMax-M1是全球首个开源的大规模混合架构推理模型,采用混合专家模型(MoE)架构并结合闪电注意力机制(Lightning Attention)。这种架构设计突破了传统Transformer架构的计算瓶颈,使得模型在处理长上下文输入和深度推理时更加高效。

模型参数与性能

参数规模:MiniMax-M1总参数量高达4560亿,每个词元激活459亿参数。

上下文长度:原生支持100万词元的上下文长度,是DeepSeek R1的8倍,与谷歌Gemini 2.5 Pro并列业内最高。

推理效率:在生成10万词元时,MiniMax-M1的浮点运算次数...

点击查看剩余70%

{{collectdata}}

网友评论