Ambiguous code in reinforce · pytorch/examples#297

(2 评论) (0 反应) (0 负责人)Python (9,429 fork)batch import

good first issue

仓库指标

Star: (21,634 star)
PR 合并指标: (30 天内没有已合并 PR)

描述

In /reinforcement_learning/reinforce.py, line 91:

running_reward = running_reward * 0.99 + t * 0.01

The variable running_reward seems to used for record average episodic rewards(not actually average, but I think the concept is similar), 0.01, is the scalar to update the average episodic rewards and t is done step. Add some comment or refactor naming may help beginners to understand this example.

贡献者指南

研究方向: 该问题指向 `/reinforcement learning/reinforce.py` 中的第 91 行。变量 `running reward` 和更新公式 `running reward * 0.99 + t * 0.01` 令人困惑。添加注释说明这是计算回合奖励的指数移动平均，或将 `running reward` 重命名为类似 `avg reward` 的名称，可以澄清代码。检查文件中现有的注释和编码风格。没有关联的拉取请求或维护者回应。确保更改与仓库中的其他示例保持一致。
技术栈: python
领域: machine learning
议题类型: 文档
难度: 1
预计时间: 1 小时以内
活动状态: 新近可参与
清晰度: 清晰
前置要求: Pythonreinforcement learning basics
新手友好度: 90

仓库指标

描述

贡献者指南

每天在邮箱收到新鲜 Easy issues。