【发布时间】:2015-02-04 09:29:40
【问题描述】:
我对如何实现一个简单的 q_learning 算法感到困惑。 我指的是这个不错的文档:http://artint.info/html/ArtInt_265.html。
给定的公式是
Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a])
问题是状态未知,因为我正在尝试学习Flappybird's 成功的动作。要获得Q[s,a],我需要知道Q[s',a'] 的值,但是如果我不知道下一个状态,如何获得Q 函数?假设状态由鸟和最近的管道之间的距离来描述,你将如何计算当前的 Q 函数?
感谢您的帮助!
【问题讨论】:
标签: machine-learning reinforcement-learning