【发布时间】:2017-01-18 17:06:39
【问题描述】:
我在*上读过 https://en.wikipedia.org/wiki/Q-learning
Q 学习可能会遇到收敛速度较慢的问题,尤其是当折扣因子 {\displaystyle \gamma } \gamma 接近 1 时。[16] Speedy Q-learning 是 Q-learning 算法的一种新变体,它处理了这个问题,并且比值迭代等基于模型的方法实现了稍微更好的收敛速度
所以我想尝试快速 q-learning,看看它有多好。
我可以在互联网上找到的唯一来源是: https://papers.nips.cc/paper/4251-speedy-q-learning.pdf
这就是他们建议的算法。
现在,我不明白。 TkQk 到底是什么,我应该有另一个 q 值列表吗?还有比这更清楚的解释吗?
Q[previousState][action] = ((Q[previousState][action]+(learningRate * ( reward + discountFactor * maxNextExpectedReward - Q[previousState][action]) )));
这是我当前的 QLearning 算法,我想将其替换为快速 Q-learning。
【问题讨论】:
-
或其他关于快速 Q-learning 的更简单的来源。 - 对外部资源的请求是题外话,你应该 edit 那部分。
-
好的...完成。固定
标签: machine-learning reinforcement-learning q-learning