Cerebras开源了6270亿数据集SlimPajama
Cerebras最新的项目SlimPajama-627B将为大型语言模型(LLM)的训练带来一场革命。这是目前已知最大、去重的、多语料库、开源的数据集,其规模达到了惊人的6270亿token。预计,通过训练模型,SlimPajama的性能将不逊于RedPajama-1T的性能。
最近的研究表明,数据质量和数据量同样重要。SlimPajama的诞生正是基于这一发现。通过大幅度去重RedPajama数据集,提高数据的信息密度,使得使用相同的计算预算能够获得更高的准确性。
RedPajama数据集原本基于LLaMa数据收集方法创建,但在分析RedPajama数据集时,Cerebras发现有些语料库存在丢失的文件,有些则包含大量重复。因此,他们决定清理...
点击查看剩余70%
网友评论