【发布时间】:2017-05-09 22:21:24
【问题描述】:
我必须用 Q-learning 来解决这个问题。 好吧,实际上我必须评估一个基于 Q-learning 的策略。
我是一名旅游经理。
我有 n 家酒店,每家可以容纳不同数量的人。
根据我选择的房间,我为每个入住酒店的人获得奖励。
如果我愿意,我也可以谋杀这个人,所以它不会在任何酒店里,但它会给我一个不同的奖励。 (好吧,那是个玩笑……但这是说我可以进行自我转换。所以我房间里的人数在那个动作之后不会改变)。
我的状态是一个包含每家酒店人数的向量。
我的动作是一个由 0 和 1 组成的向量,它告诉我我在哪里
放新人。- 我的奖励矩阵由我在每次转换中获得的奖励组成
状态之间(甚至是自转换状态)。
现在,因为我可以获得无限数量的人(即我可以填充它但我可以继续杀死他们)我如何构建 Q 矩阵?没有 Q 矩阵,我无法获得策略,因此无法评估它...
我看错了什么?我应该选择一个随机状态作为最终状态吗?我完全没有抓住重点吗?
【问题讨论】:
-
所以Q矩阵可以是一个大小为[num_states x num_actions]的矩阵。你想学什么?
-
@NKN 我的政策希望随着时间的推移最大限度地提高收入。Q 是按你说的方式构建
-
如果你有你的 Q 矩阵并且你运行 Q-learning 最后你会得到你的 Q_optimal 假设 Q*。算法收敛后,策略为argmax_{action}(Q*)。
-
@NKN 我同意你的观点,但我的问题是构建 Q 矩阵。我的意思是,在算法中应该有一个''对于每个状态......直到状态是最终状态''(就像这个页面上的那个:mnemstudio.org/path-finding-q-learning.htm我的问题是我没有看到任何最终状态在我的情况下由于自动转换:/我坚持使用“每个酒店都已满”状态作为最终状态,但我不知道这只是猜测还是应该是正确的。
标签: machine-learning reinforcement-learning q-learning