Hugging Face开源128K上下文3B参数的小模型SmolLM3

Hugging Face开源128K上下文3B参数的小模型SmolLM3

800_auto

Hugging Face 近日发布了 SmolLM3,这是一个 3B 参数的小模型,性能优越,可媲美 4B 参数模型(如 Qwen3-4B 和 Gemma3-4B),并在多个基准测试中超越 Llama-3.2-3B 和 Qwen2.5-3B 。

SmolLM3 是一个完全开源的模型,训练数据包括 11.2 万亿个 token(涵盖网页、代码、数学和推理数据),采用 GQA 和 NoPE 技术,支持 128K 长上下文(通过 YaRN 技术实现),并支持 6 种语言(英语、法语、西班牙语、德语、意大利语和葡萄牙语)。

该模型提供两种模式:基础模型(SmolLM3-3B-Base)和经过指令优化的推理模型(SmolLM3-3B),支持“思考”(think)和“非思考”(no-think)双模推理,用户可以根据任务需求灵活切换,以平衡速度和深度推理能力 。

例如,在 AIME 2025 等复杂任务中,启用“思考”模式后,模型表现显著提升 。

SmolLM3 的代码已集成到 Transformers v4.53.0 中,可通过以下方式使用:

pip install -U transfor...

点击查看剩余70%

{{collectdata}}

网友评论