Stability AI发布第一个开源RLHF聊天机器人StableVicuna

Stability AI发布第一个开源RLHF聊天机器人StableVicuna

最近,Open Assistant、Anthropic和斯坦福大学已经开始向公众提供聊天RLHF数据集。这些数据集,再加上trlx提供的直接RLHF训练,使得StableVicuna成为第一个大规模开源的RLHF LLM聊天机器人。

800_auto

StableVicuna是Vicuna v0 13b的进一步指令微调和RLHF训练版本,它是一个指令微调的LLAMA 13b模型。

同样,这里有一些基准,显示了与其他类似规模的开源聊天机器人相比,StableVicuna的整体性能。

为了实现StableVicuna的强大性能,我们利用Vicuna作为基础模型,并遵循Steinnon...

点击查看剩余70%

{{collectdata}}

网友评论