feature requestgood first issue
Metriche repository
- Star
- (5148 star)
- Metriche merge PR
- (Merge medio 5g) (93 PR mergiate in 30 g)
Descrizione
需要实现几种对齐算法
1.PPO
这个没的说,比较传统和通用,但是训练的开销会大一点
2. RAFT
LMFLOW社区有做
https://optimalscale.github.io/LMFlow/examples/raft.html
3.pangu-coder2
RRTF (Rank Responses to align Test&Teacher Feedback)
总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM
https://arxiv.org/abs/2307.14936
RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。