Q 学习计算：状态未知答案

【问题标题】：Q learning computation: states unknownQ 学习计算：状态未知
【发布时间】：2015-02-04 09:29:40
【问题描述】：

我对如何实现一个简单的 q_learning 算法感到困惑。我指的是这个不错的文档：http://artint.info/html/ArtInt_265.html。

给定的公式是

Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a])

问题是状态未知，因为我正在尝试学习Flappybird's 成功的动作。要获得Q[s,a]，我需要知道Q[s',a'] 的值，但是如果我不知道下一个状态，如何获得Q 函数？假设状态由鸟和最近的管道之间的距离来描述，你将如何计算当前的 Q 函数？

感谢您的帮助！

【问题讨论】：

【解决方案1】：

s' 是当前状态。 s 是之前的状态。 max_a' Q[s', a'] 是当前状态最佳动作的值。

【讨论】：