【问题标题】:Learning rate of a Q learning agentQ 学习代理的学习率
【发布时间】:2015-10-08 09:31:12
【问题描述】:

学习率如何影响收敛速度和收敛本身的问题。 如果学习率是恒定的,Q函数会收敛到最优还是学习率必须衰减以保证收敛?

【问题讨论】:

  • 如果学习率足够,你就可以保证凸 q 学习问题的收敛。
  • 我假设还依赖于 MDP 的性质。我假设在状态转换和/或奖励函数中具有随机性的 MDP 上的收敛要求将需要满足@purpletentacle 发布的要求。但是,我也假设如果过程或奖励中没有随机性,则学习率不需要衰减。知道的人(最好有支持文献)的见解将不胜感激。

标签: machine-learning reinforcement-learning q-learning


【解决方案1】:

学习率表明了朝着解决方案迈出的步幅。

不应该太大一个数字,因为它可能会在最小值附近不断振荡,它不应该太小一个数字,否则需要很多达到最小值的时间和迭代次数。

建议在学习率中使用衰减的原因是,最初当我们处于解决方案空间中的完全随机点时,我们需要朝着解决方案迈进一大步,然后当我们接近它时,我们做了一些小的跳跃,因此进行了小的改进,最终达到了最小值。

类比可以作:在高尔夫的比赛中,当球离球洞很远时,球手非常用力地击球以尽可能靠近球洞到洞。后来,当他到达标记区域时,他选择了不同的球杆来获得准确的短球。

所以不是他不选择短击球杆就无法将球送入球洞,他可能会在目标之前将球送出两到三倍。但如果他打得最好,并使用适量的力量到达洞口,那将是最好的。衰减学习率也是如此。

【讨论】:

    【解决方案2】:

    学习率必须衰减但不能太快。 收敛条件如下(抱歉,没有latex):

    • sum(alpha(t), 1, inf) = inf

    • sum(alpha(t)^2, 1, inf)

    像 alpha = k/(k+t) 这样的东西可以很好地工作。

    这篇论文正是讨论了这个话题:

    http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf

    【讨论】:

    • Even-Dar & Mansour 2003 提供了充分条件。 Azar et alt., 2011 包含当学习率为 $\alpha_k = 1/(k+1)$ 时近似值的下限以及其他结果
    【解决方案3】:

    它应该衰减,否则会有一些波动引起政策的微小变化。

    【讨论】: