feature requestgood first issue
Repository metrics
- Stars
- (5,148 stars)
- PR merge metrics
- (Avg merge 5d) (93 merged PRs in 30d)
Description
需要实现几种对齐算法
1.PPO
这个没的说,比较传统和通用,但是训练的开销会大一点
2. RAFT
LMFLOW社区有做
https://optimalscale.github.io/LMFlow/examples/raft.html
3.pangu-coder2
RRTF (Rank Responses to align Test&Teacher Feedback)
总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM
https://arxiv.org/abs/2307.14936
RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。