 
	小红书开源媲美qwen2.5的开源ai模型dots.llm1

小红书的团队在GitHub和Hugging Face等平台开源了首款文本大模型dots.llm1
模型概述
参数规模:dots.llm1是一个中等规模的混合专家(MoE)模型,总参数量为1420亿(142B),每次推理仅激活140亿(14B)参数。架构设计:采用6in128的专家配置,包含2个共享Expert,使用QK-Norm的多头注意力机制。
支持语言:支持中英文。
上下文长度:支持最长32,768个token。
训练与性能
训练数据:使用11.2万亿(11.2T)高质量非合成数据进行预训练,注重数据质量而非数量。
训练策略:采用W...
点击查看剩余70%
 
			 
			 
				 
			 
	
网友评论