【发布时间】:2009-12-06 07:37:18
【问题描述】:
伽玛值大或小对算法有什么影响?在我的光学系统中,只要它既不是 0 也不是 1,它的工作方式应该完全相同。另一方面,无论我选择什么伽玛,似乎 Qvalues 很快就接近于零(我在这里的值大约为 10^-300 只是在快速测试中)。考虑到这个问题,人们通常如何绘制 Qvalues(我正在为那个状态绘制 (x, y, best QValue))?我正在尝试使用对数,但即便如此感觉有点尴尬。
另外,我不明白 Q Learning 更新函数中具有和 alpha 参数的原因是什么。它基本上设置了我们将对 Q 值函数进行的更新幅度。我认为它通常会随着时间的推移而减少。让它随着时间的推移而减少的兴趣是什么?一开始的更新值应该比后面 1000 集更重要?
另外,我认为每次代理不想执行贪婪动作时探索状态空间的一个好主意是探索仍然具有零 QValue 的任何状态(这意味着,至少大部分时代,一个从未有过的国家),但我没有看到任何文献中提到过。这有什么缺点吗?我知道这不能与(至少某些)泛化函数一起使用。
其他想法是保留已访问状态/操作的表格,并尝试执行之前在该状态下尝试次数较少的操作。当然,这只能在相对较小的状态空间中完成(在我的情况下这绝对是可能的)。
探索过程后期的第三个想法是,不仅要查看所选动作以寻找最佳 qvalues,还要查看所有可能的动作和该状态的内部,然后查看该状态的其他动作等等。
我知道这些问题有点不相关,但我想听听以前曾与此相关的人的意见,并且(可能)也曾为其中一些问题苦苦挣扎。
【问题讨论】:
-
政策是什么?问题是什么?有哪些州?工作的动力是什么?你用了什么代码?您是否使用参考问题来证明您的代码有效?
标签: language-agnostic artificial-intelligence reinforcement-learning