Q 学习代理的学习率答案

【问题标题】：Learning rate of a Q learning agentQ 学习代理的学习率
【发布时间】：2015-10-08 09:31:12
【问题描述】：

学习率如何影响收敛速度和收敛本身的问题。如果学习率是恒定的，Q函数会收敛到最优还是学习率必须衰减以保证收敛？

【问题讨论】：

如果学习率足够小，你就可以保证凸 q 学习问题的收敛。
我假设还依赖于 MDP 的性质。我假设在状态转换和/或奖励函数中具有随机性的 MDP 上的收敛要求将需要满足@purpletentacle 发布的要求。但是，我也假设如果过程或奖励中没有随机性，则学习率不需要衰减。知道的人（最好有支持文献）的见解将不胜感激。

【解决方案1】：

学习率表明了朝着解决方案迈出的步幅。

它不应该太大一个数字，因为它可能会在最小值附近不断振荡，它不应该太小一个数字，否则需要很多达到最小值的时间和迭代次数。

建议在学习率中使用衰减的原因是，最初当我们处于解决方案空间中的完全随机点时，我们需要朝着解决方案迈进一大步，然后当我们接近它时，我们做了一些小的跳跃，因此进行了小的改进，最终达到了最小值。

类比可以作：在高尔夫的比赛中，当球离球洞很远时，球手非常用力地击球以尽可能靠近球洞到洞。后来，当他到达标记区域时，他选择了不同的球杆来获得准确的短球。

所以不是他不选择短击球杆就无法将球送入球洞，他可能会在目标之前将球送出两到三倍。但如果他打得最好，并使用适量的力量到达洞口，那将是最好的。衰减学习率也是如此。

【讨论】：

【解决方案2】：

学习率必须衰减但不能太快。收敛条件如下（抱歉，没有latex）：

像 alpha = k/(k+t) 这样的东西可以很好地工作。

这篇论文正是讨论了这个话题：

【讨论】：

Even-Dar & Mansour 2003 提供了充分条件。 Azar et alt., 2011 包含当学习率为 $\alpha_k = 1/(k+1)$ 时近似值的下限以及其他结果

【解决方案3】：

它应该衰减，否则会有一些波动引起政策的微小变化。

【讨论】：