InternLM/xtuner

About RLHF need

Open

#93 创建于 2023年9月4日

在 GitHub 查看
 (3 评论) (1 反应) (1 负责人)Python (424 fork)github user discovery
feature requestgood first issue

仓库指标

Star
 (5,148 star)
PR 合并指标
 (平均合并 5天) (30 天内合并 93 个 PR)

描述

需要实现几种对齐算法 1.PPO 这个没的说,比较传统和通用,但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 image image RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。

贡献者指南