Cerebras开源了6270亿数据集SlimPajama-BFW编程笔记

Cerebras开源了6270亿数据集SlimPajama

Cerebras最新的项目SlimPajama-627B将为大型语言模型（LLM）的训练带来一场革命。这是目前已知最大、去重的、多语料库、开源的数据集，其规模达到了惊人的6270亿token。预计，通过训练模型，SlimPajama的性能将不逊于RedPajama-1T的性能。

800_auto
最近的研究表明，数据质量和数据量同样重要。SlimPajama的诞生正是基于这一发现。通过大幅度去重RedPajama数据集，提高数据的信息密度，使得使用相同的计算预算能够获得更高的准确性。

RedPajama数据集原本基于LLaMa数据收集方法创建，但在分析RedPajama数据集时，Cerebras发现有些语料库存在丢失的文件，有些则包含大量重复。因此，他们决定清理...