在强化学习中实现损失函数 (MSVE)答案

【问题标题】：Implementing a loss function (MSVE) in Reinforcement learning在强化学习中实现损失函数 (MSVE)
【发布时间】：2018-03-22 23:14:48
【问题描述】：

我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其余实现似乎按预期运行，但我想知道用于训练我的网络的损失函数。在 Sutton 的《Reinforcement learning: An Introduction》一书中，Mean Squared Value Error（MSVE）被呈现为标准损失函数。它基本上是 Mean Square Error 乘以 on policy 分布。（Sum over all states s ( onPolicyDistribution(s ) * [V(s) - V'(s,w)]² ) )

我现在的问题是：当我的策略是学习价值函数的电子贪心函数时，我如何在策略分布上获得这个？如果我只使用 MSELoss 代替，它甚至有必要吗？有什么问题？

我在 pytorch 中实现了所有这些，所以在那里轻松实现的奖励积分 :)

【问题讨论】：

标签： reinforcement-learning pytorch loss-function temporal-difference othello

【解决方案1】：

正如您所提到的，在您的情况下，听起来您正在做 Q-learning，因此您不需要像 Sutton 的书中描述的那样进行策略梯度。当您学习政策时，这是需要的。您不是在学习政策，而是在学习价值函数并使用它来行动。

【讨论】：