Stability AI发布第一个开源RLHF聊天机器人StableVicuna-BFW编程笔记

Stability AI发布第一个开源RLHF聊天机器人StableVicuna

最近，Open Assistant、Anthropic和斯坦福大学已经开始向公众提供聊天RLHF数据集。这些数据集，再加上trlx提供的直接RLHF训练，使得StableVicuna成为第一个大规模开源的RLHF LLM聊天机器人。

800_auto

StableVicuna是Vicuna v0 13b的进一步指令微调和RLHF训练版本，它是一个指令微调的LLAMA 13b模型。

同样，这里有一些基准，显示了与其他类似规模的开源聊天机器人相比，StableVicuna的整体性能。

为了实现StableVicuna的强大性能，我们利用Vicuna作为基础模型，并遵循Steinnon...