InternLM/xtuner

About RLHF need

Open

#93 ouverte le 4 sept. 2023

Voir sur GitHub
 (3 commentaires) (1 réaction) (1 assigné)Python (424 forks)github user discovery
feature requestgood first issue

Métriques du dépôt

Stars
 (5 148 stars)
Métriques de merge PR
 (Merge moyen 5j) (93 PRs mergées en 30 j)

Description

需要实现几种对齐算法 1.PPO 这个没的说,比较传统和通用,但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 image image RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。

Guide contributeur