【问题标题】:Plotting reward curve in reinforcement learning在强化学习中绘制奖励曲线
【发布时间】:2018-11-13 05:05:54
【问题描述】:

我想知道如何在强化学习中绘制奖励曲线。

特别是,我的模拟环境具有很大的随机性。 所以即使输出策略是收敛的,奖励的原始数据中也有很多锯齿形模式。

在这种情况下有什么方法可以绘制吗?

【问题讨论】:

    标签: reinforcement-learning


    【解决方案1】:

    恐怕我不明白你的问题。为什么不只是策划你在每一集中获得的奖励呢?如果策略收敛,一段时间后您应该会看到奖励增加,即使可能会有那些曲折的开始。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-07-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-03-21
      • 2018-07-17
      • 1970-01-01
      • 2012-05-28
      相关资源
      最近更新 更多