About RLHF need · InternLM/xtuner#93

(3 commenti) (1 reazione) (1 assegnatario)Python (424 fork)github user discovery

feature requestgood first issue

Metriche repository

Star: (5148 star)
Metriche merge PR: (Merge medio 5g) (93 PR mergiate in 30 g)

Descrizione

需要实现几种对齐算法 1.PPO 这个没的说，比较传统和通用，但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说，他们是用了代码单元测试，然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 RRTF华为他们这部分没有开源。RAFT是开源了，RRTF可以的话可以一起讨论一起实现一下。

Guida contributor

Direzione di ricerca: Studia gli algoritmi di riferimento (PPO, RAFT, RRTF) e trova implementazioni open source. Per RRTF, analizza il paper e discuti con la community. Considera di iniziare con RAFT che ha un riferimento open source.
Tech stack: python
Dominio: machine learning
Tipo issue: Funzionalità
Difficoltà: 4
Tempo stimato: Oltre 1 settimana
Stato attività: Attiva
Chiarezza: Chiara
Prerequisiti: Python
Adatta ai principianti: 20

Metriche repository

Descrizione

Guida contributor

Ricevi issue Easy fresche nella tua inbox.