小红书开源媲美qwen2.5的开源ai模型dots.llm1

小红书开源媲美qwen2.5的开源ai模型dots.llm1

800_auto

小红书的团队在GitHub和Hugging Face等平台开源了首款文本大模型dots.llm1

模型概述

参数规模:dots.llm1是一个中等规模的混合专家(MoE)模型,总参数量为1420亿(142B),每次推理仅激活140亿(14B)参数。

架构设计:采用6in128的专家配置,包含2个共享Expert,使用QK-Norm的多头注意力机制。

支持语言:支持中英文。

上下文长度:支持最长32,768个token。

训练与性能

训练数据:使用11.2万亿(11.2T)高质量非合成数据进行预训练,注重数据质量而非数量。

训练策略:采用W...

点击查看剩余70%

{{collectdata}}

网友评论