【发布时间】:2020-11-23 18:19:34
【问题描述】:
我正在设计一个 DQN 模型的奖励函数,这是深度强化学习部分中最棘手的部分。我参考了几个案例,并注意到通常奖励将设置在 [-1, 1] 中。考虑到如果负奖励被触发的次数更少,与正奖励相比更“稀疏”,那么正奖励可能会低于 1。
我想知道为什么我要设置总是尝试将奖励设置在这个范围内(有时可以是[0,1],其他时候可以是[-1,0]或简单地-1)?范围背后的理论或原理是什么?
我通过this answer;它提到将 500 设置为正奖励,将 -1 设置为负奖励将破坏网络。但它会如何破坏模型呢?
我可以隐约理解这与梯度下降相关,实际上重要的是奖励之间的差距,而不是符号或绝对值。但我仍然没有明确提示它如何破坏,以及为什么在这样的范围内。
此外,我什么时候应该使用像 [0,1] 这样的奖励或只使用负奖励?我的意思是,在给定的时间步长内,这两种方法似乎都可以推动代理找到最高的总奖励。只有在我想让代理尽快到达终点的情况下,负奖励似乎比正奖励更合适。
是否有衡量奖励设计是否合理的标准?就像用好动作和坏动作的Q值求和一样,它是对称的,最后的Q应该在零附近,这意味着它收敛了?
【问题讨论】:
标签: deep-learning reinforcement-learning dqn