【发布时间】:2025-06-06 12:05:02
【问题描述】:
如*https://en.wikipedia.org/wiki/Q-learning#Learning_Rate中所述, 对于随机问题,使用学习率对于收敛很重要。虽然我试图在没有任何数学证明的情况下找到原因背后的“直觉”,但我找不到。
具体来说,我很难理解为什么缓慢更新 q 值对随机环境有益。谁能解释一下直觉或动机?
【问题讨论】:
-
Artificial Intelligence Stack Exchange 可能是提出与强化学习相关的理论问题的更好地方,所以我建议您在那里提出问题。如果你在那里问,请从这里删除(以避免交叉发布,这通常是不鼓励的)。鉴于这甚至不是编程问题,您当前的问题将与 Stack Overflow 无关。
标签: reinforcement-learning q-learning stochastic-process