【发布时间】:2017-10-03 21:27:53
【问题描述】:
我制作了一个简单版本的 Curve Fever,也称为“Achtung Die Kurve”。我希望机器弄清楚如何以最佳方式玩游戏。我从一些使用 Google 的 Tensorflow 制作的 Atari 游戏示例中复制并稍微修改了现有 DQN。
我很想找出一个合适的奖励函数。目前,我使用这个奖励设置:
- 0.1 每帧不崩溃
- -500 每次崩溃
这是正确的方法吗?我需要调整值吗?还是我需要一种完全不同的方法?
【问题讨论】:
-
你设法让 DQN 工作了吗?
-
是的,我实现了如下所述的评分。
-
所以 -1 表示死亡,+1 表示杀戮。你有没有使用任何小的常数值来生存?
-
我首先使用一个小常数作为幸存者的奖励,但结果并不如我所愿。请记住,训练这样的网络可能需要几个晚上才能取得任何积极的结果。
标签: machine-learning tensorflow deep-learning reinforcement-learning q-learning