InternLM/xtuner

About RLHF need

Open

#93 opened on 2023年9月4日

GitHub で見る
 (3 comments) (1 reaction) (1 assignee)Python (424 forks)github user discovery
feature requestgood first issue

Repository metrics

Stars
 (5,148 stars)
PR merge metrics
 (平均マージ 5d) (30d で 93 merged PRs)

説明

需要实现几种对齐算法 1.PPO 这个没的说,比较传统和通用,但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 image image RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。

コントリビューターガイド