Cerebras 开源七个 GPT-3 模型,参数涵盖 1.11 亿到 130 亿

Cerebras 开源七个 GPT-3 模型,参数涵盖 1.11 亿到 130 亿

AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用。

“今天的发布旨在供任何人使用和复制...... 人工智能有可能改变世界经济,但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。”

根据介绍,这些模型使用 Chinchilla 公式进行训练,可为给定的计算预算提供最高的准确性。Cerebras-GPT 与迄今为止的任何公开可用模型相比,训练时间更快、训练成本更低,并且功耗更低。

Cerebras-GPT 在 Cerebras 所拥有的 Andromeda AI 超级计算机的 CS-2 系统上进行了几周的训练。“训练这七个模型使我们能够推导出新的 scaling law。Scaling laws 根据训练计算预算预测模型准确性,并在指导 AI ...

点击查看剩余70%

{{collectdata}}

网友评论