【发布时间】:2013-06-24 12:52:40
【问题描述】:
在任何使用广义时间差分的标准强化学习算法(例如 SARSA、Q-learning)中,都会出现一个问题,即针对特定任务为 lambda 和 gamma 超参数使用什么值。
我知道 lambda 与资格跟踪的长度相关,而 gamma 可以解释为对未来奖励的折扣多少,但是我如何知道我的 lambda 值何时对于给定任务而言太低,或者我的 gamma 也是高的?
我意识到这些问题没有明确的答案,但了解一些具有不适当值的“危险信号”会非常有用。
以标准的cart-pole, or inverted pendulum 任务为例。我应该将 gamma 设置为高,因为它需要许多步骤才能使任务失败,还是因为状态信息完全是 Markovian 而设置低?我什至无法理解 lambda 值的有理数......
【问题讨论】:
标签: machine-learning artificial-intelligence reinforcement-learning markov