About RLHF need · InternLM/xtuner#93

(3 commentaires) (1 réaction) (1 assigné)Python (424 forks)github user discovery

feature requestgood first issue

Métriques du dépôt

Stars: (5 148 stars)
Métriques de merge PR: (Merge moyen 5j) (93 PRs mergées en 30 j)

Description

需要实现几种对齐算法 1.PPO 这个没的说，比较传统和通用，但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说，他们是用了代码单元测试，然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 RRTF华为他们这部分没有开源。RAFT是开源了，RRTF可以的话可以一起讨论一起实现一下。

Guide contributeur

Direction de recherche: Étudiez les algorithmes référencés (PPO, RAFT, RRTF) et trouvez des implémentations open source. Pour RRTF, analysez l'article et discutez avec la communauté. Envisagez de commencer par RAFT qui a une référence open source.
Stack technique: python
Domaine: machine learning
Type d'issue: Fonctionnalité
Difficulté: 4
Temps estimé: Plus d'une semaine
Statut d'activité: Active
Clarté: Claire
Prérequis: Python
Accessibilité débutant: 20

Métriques du dépôt

Description

Guide contributeur

Recevez de nouvelles issues Easy par e-mail.