蒙特卡洛政策评估混乱答案

【问题标题】：Monte Carlo policy evaluation confusion蒙特卡洛政策评估混乱
【发布时间】：2017-08-06 23:39:54
【问题描述】：

我无法理解蒙特卡洛政策评估算法。我正在阅读的是G 是访问特定州后的平均回报，比如说s1，这是第一次。这是否意味着将状态s1 之后的所有奖励平均到剧集结束，然后将结果值分配给s1？或者这是否意味着在s1 中采取行动获得的即时奖励是多个剧集的平均值？

【问题讨论】：

【解决方案1】：

蒙特卡洛策略评估的目的是找到给定策略 π 的价值函数。策略的价值函数只是告诉我们预期的累积折扣奖励，该奖励将来自于处于一个状态，然后永远遵循该策略或直到剧集结束。它告诉我们一个状态的预期回报。

因此，估计此价值函数的蒙特卡罗方法是简单地运行策略并跟踪每个状态的回报；当我第一次达到一个状态时，我在其余情节中累积了多少折扣奖励？平均您观察到的所有这些（您访问的每个州，您运行的每一集都有一个回报）。

这是否意味着将状态 s1 之后的所有奖励平均到剧集结束，然后将结果值分配给 s1？或者这是否意味着在s1 中采取行动获得的即时奖励是多个剧集的平均值？

所以，你的第一个想法是正确的。

【讨论】：