ChatGPT的开源替代模型OpenChatKit来了,源代码、模型权重和训练数据集全部公开
它由前OpenAI研究员共同打造。据悉,OpenChatKit一共包含200亿参数,在EleutherAI的GPT-NeoX-20B(GPT-3开源替代品)上进行了微调,还可以连接其它API或数据源进行检索等等。
据介绍,OpenChatKit一共包含4个基本组件:
1、一个指令调优的大型语言模型。
用EleutherAI的GPT-NoX-20B对聊天功能进行了微调,后者在carbon-negative计算上具有4300万条指令。
调整重点是多轮对话、问答、分类、提取和摘要等几个任务。
2、定制配方(recipe)。
用来帮助微调模型使其能够为特定任务提供高精度的结果,只需要准备自己的数据集。
3、一个可扩展的检索系统。
可以让你在推理时从文档存储库、API或其他实时更新信息源添加信息。
4、一个由GPT-JT-6B微调而成的调节模型(moderation model)。可以过滤模型对一些问题的响应。
这样的OpenChatKit可以为各种应用程序创建专用和通用的聊天机器人。
在GitHub上的仓库,你可以找到它的训练代码、测试推理代码...
点击查看剩余70%
网友评论