InternLM/xtuner

About RLHF need

Open

#93 aperta il 4 set 2023

Vedi su GitHub
 (3 commenti) (1 reazione) (1 assegnatario)Python (424 fork)github user discovery
feature requestgood first issue

Metriche repository

Star
 (5148 star)
Metriche merge PR
 (Merge medio 5g) (93 PR mergiate in 30 g)

Descrizione

需要实现几种对齐算法 1.PPO 这个没的说,比较传统和通用,但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 image image RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。

Guida contributor