【发布时间】:2015-10-08 09:31:12
【问题描述】:
学习率如何影响收敛速度和收敛本身的问题。 如果学习率是恒定的,Q函数会收敛到最优还是学习率必须衰减以保证收敛?
【问题讨论】:
-
如果学习率足够小,你就可以保证凸 q 学习问题的收敛。
-
我假设还依赖于 MDP 的性质。我假设在状态转换和/或奖励函数中具有随机性的 MDP 上的收敛要求将需要满足@purpletentacle 发布的要求。但是,我也假设如果过程或奖励中没有随机性,则学习率不需要衰减。知道的人(最好有支持文献)的见解将不胜感激。
标签: machine-learning reinforcement-learning q-learning