About RLHF need · InternLM/xtuner#93

(3 评论) (1 反应) (1 负责人)Python (424 fork)github user discovery

feature requestgood first issue

仓库指标

Star: (5,148 star)
PR 合并指标: (平均合并 5天) (30 天内合并 93 个 PR)

描述

需要实现几种对齐算法 1.PPO 这个没的说，比较传统和通用，但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说，他们是用了代码单元测试，然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 RRTF华为他们这部分没有开源。RAFT是开源了，RRTF可以的话可以一起讨论一起实现一下。

贡献者指南

研究方向: 研究参考的算法（PPO、RAFT、RRTF），并找到开源实现。针对RRTF，分析论文并与社区讨论。可以考虑从已有开源参考的RAFT开始。
技术栈: python
领域: machine learning
议题类型: 功能
难度: 4
预计时间: 超过 1 周
活动状态: 活跃
清晰度: 清晰
前置要求: Python
新手友好度: 20

仓库指标

描述

贡献者指南

每天在邮箱收到新鲜 Easy issues。