【问题标题】:Implementing a loss function (MSVE) in Reinforcement learning在强化学习中实现损失函数 (MSVE)
【发布时间】:2018-03-22 23:14:48
【问题描述】:

我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其余实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在 Sutton 的《Reinforcement learning: An Introduction》一书中,Mean Squared Value Error(MSVE)被呈现为标准损失函数。它基本上是 Mean Square Error 乘以 on policy 分布。(Sum over all states s ( onPolicyDistribution(s ) * [V(s) - V'(s,w)]² ) )

我现在的问题是:当我的策略是学习价值函数的电子贪心函数时,我如何在策略分布上获得这个?如果我只使用 MSELoss 代替,它甚至有必要吗?有什么问题?

我在 pytorch 中实现了所有这些,所以在那里轻松实现的奖励积分 :)

【问题讨论】:

    标签: reinforcement-learning pytorch loss-function temporal-difference othello


    【解决方案1】:

    正如您所提到的,在您的情况下,听起来您正在做 Q-learning,因此您不需要像 Sutton 的书中描述的那样进行策略梯度。当您学习政策时,这是需要的。您不是在学习政策,而是在学习价值函数并使用它来行动。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-03-18
      • 2010-10-18
      • 2014-12-23
      • 2018-12-27
      • 1970-01-01
      • 2021-02-12
      • 1970-01-01
      相关资源
      最近更新 更多