MiniMax开源其首个100万tokens上下文推理模型MiniMax-M1
MiniMax-M1是全球首个开源的大规模混合架构推理模型,采用混合专家模型(MoE)架构并结合闪电注意力机制(Lightning Attention)。这种架构设计突破了传统Transformer架构的计算瓶颈,使得模型在处理长上下文输入和深度推理时更加高效。
模型参数与性能
参数规模:MiniMax-M1总参数量高达4560亿,每个词元激活459亿参数。
上下文长度:原生支持100万词元的上下文长度,是DeepSeek R1的8倍,与谷歌Gemini 2.5 Pro并列业内最高。
推理效率:在生成10万词元时,MiniMax-M1的浮点运算次数...
点击查看剩余70%
网友评论