【问题标题】:Q learning computation: states unknownQ 学习计算:状态未知
【发布时间】:2015-02-04 09:29:40
【问题描述】:

我对如何实现一个简单的 q_learning 算法感到困惑。 我指的是这个不错的文档:http://artint.info/html/ArtInt_265.html

给定的公式是

Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a])

问题是状态未知,因为我正在尝试学习Flappybird's 成功的动作。要获得Q[s,a],我需要知道Q[s',a'] 的值,但是如果我不知道下一个状态,如何获得Q 函数?假设状态由鸟和最近的管道之间的距离来描述,你将如何计算当前的 Q 函数?

感谢您的帮助!

【问题讨论】:

    标签: machine-learning reinforcement-learning


    【解决方案1】:

    s' 是当前状态。 s 是之前的状态。 max_a' Q[s', a'] 是当前状态最佳动作的值。

    【讨论】: