【问题标题】:Several dips in accumulated episodic rewards during training of a reinforcement learning agent在强化学习代理的训练过程中,累积的情节奖励出现了几次下降
【发布时间】:2020-03-20 18:46:24
【问题描述】:

您好,我正在使用 PPO 算法为控制问题训练强化学习代理。我正在跟踪训练过程中每一集的累积奖励。在训练过程中,我多次看到累积的奖励突然下降。我无法弄清楚为什么会发生这种情况或如何避免这种情况。尝试更改一些超参数,例如更改神经网络层中的神经元数量、学习率等。但我仍然看到这种情况一直在发生。 如果我调试并检查在下跌期间采取的行动,显然行动是非常糟糕的,因此会导致奖励减少。

有人可以帮助我了解为什么会发生这种情况或如何避免这种情况吗?

我的训练过程中的一些情节

【问题讨论】:

    标签: artificial-intelligence reinforcement-learning agent temporal-difference dqn


    【解决方案1】:

    我最近读了这篇论文:https://arxiv.org/pdf/1805.07917.pdf 我没有特别使用这种方法,所以我不能保证它的有用性,但是对这个问题的解释对我来说似乎很有说服力:

    例如,在学习过程中,猎豹受益于向前倾以增加其速度,从而在该方向上产生强烈的梯度。然而,如果猎豹倾斜太多,它就会倒下。基于梯度的方法似乎经常陷入这个陷阱,然后无法恢复,因为来自新状态的梯度信息无法保证撤消最后一次梯度更新。

    【讨论】:

      最近更新 更多