Cerebras 开源七个 GPT-3 模型，参数涵盖 1.11 亿到 130 亿-BFW编程笔记

Cerebras 开源七个 GPT-3 模型，参数涵盖 1.11 亿到 130 亿

AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT，参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重，供研究以及商业社区免费使用。

“今天的发布旨在供任何人使用和复制...... 人工智能有可能改变世界经济，但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型，并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术，我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。”

根据介绍，这些模型使用 Chinchilla 公式进行训练，可为给定的计算预算提供最高的准确性。Cerebras-GPT 与迄今为止的任何公开可用模型相比，训练时间更快、训练成本更低，并且功耗更低。

Cerebras-GPT 在 Cerebras 所拥有的 Andromeda AI 超级计算机的 CS-2 系统上进行了几周的训练。“训练这七个模型使我们能够推导出新的 scaling law。Scaling laws 根据训练计算预算预测模型准确性，并在指导 AI ...

点击查看剩余70%

打赏博主×

Cerebras 开源七个 GPT-3 模型，参数涵盖 1.11 亿到 130 亿

网友评论

{{item.title}}

浏览器webrtc点对点通讯如何才能走系统代理？

ai如何模拟人类与大自然迭代升级生存的游戏？

DepthAnything如何结合threejs将视频通过3d深度转成3d视频画面？

TurbinePHP与swoole有啥不同？

dns中a记录与cname记录区别？

AI 编程里 SDD、TDD、BDD是哈有啥区别？

Cloudflared tunnel如何实现泛域名解析？

最近招聘上出现AIQ是啥？

有没有开源离线进行数据脱敏的ai模型？

有没有开源免费好用的pdf word excel文件转markdown文本？