About RLHF need · InternLM/xtuner#93

(3 comments) (1 reaction) (1 assignee)Python (424 forks)github user discovery

feature requestgood first issue

Repository metrics

Stars: (5,148 stars)
PR merge metrics: (平均マージ 5d) (30d で 93 merged PRs)

説明

需要实现几种对齐算法 1.PPO 这个没的说，比较传统和通用，但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说，他们是用了代码单元测试，然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 RRTF华为他们这部分没有开源。RAFT是开源了，RRTF可以的话可以一起讨论一起实现一下。

コントリビューターガイド

調査方針: 参照されているアルゴリズム（PPO、RAFT、RRTF）を研究し、オープンソースの実装を見つけてください。RRTFについては論文を分析し、コミュニティと議論してください。オープンソースの参考実装があるRAFTから始めることを検討してください。
技術スタック: python
領域: machine learning
Issue 種別: 機能
難度: 4
推定時間: 1週間超
活動状況: アクティブ
明確さ: 明確
前提条件: Python
初心者向け度: 20

Repository metrics

説明

コントリビューターガイド

新着 Easy issues をメールで受け取る。