比LLaMA65B小但更强的免费商用开源大模型FalconLM

比LLaMA65B小但更强的免费商用开源大模型FalconLM

FalconLM是一个新的开源语言模型,声称自己是“史上最强的开源大语言模型”。

800_auto

它的参数达到400亿,在1万亿高质量token上训练。性能超过LLaMA和其他开源模型,在HuggingFace榜单上排第一。

800_auto

FalconLM由阿布扎比技术创新研究所开发,采用Apache 2.0许可证,允许商业使用。但商业收益超过100万美元要付10%授权费,引发争议。

FalconLM有四个版本:

- Falcon-40B:参数40亿,在1万亿token上训练,支持英语、德语、西班牙语和法语。

- Falcon-40B-Instruct:在Falcon-40B基础上微调,用于对话,参数也是40亿。

- Falcon-7B:参数70亿,在1.5万亿token上训练,作为预训练模型需要进一步微调。

- Falcon-RW-7B:参数70亿,在3500亿token上训练,用于研究不同数据训练的影响。

FalconLM花费两个月时间在AWS的384个GPU上训练而成。

800_auto

它使用定制的数据管道从公开网络提取数据,强调数据质量,经过过滤和去重得到5万亿个token的数据集。为扩大模型能力,还加入研究论文和社交媒体对话等数据。

官网:https://falconllm.tii.ae/

{{collectdata}}

网友评论