在强化学习代理的训练过程中，累积的情节奖励出现了几次下降答案

【问题标题】：Several dips in accumulated episodic rewards during training of a reinforcement learning agent在强化学习代理的训练过程中，累积的情节奖励出现了几次下降
【发布时间】：2020-03-20 18:46:24
【问题描述】：

您好，我正在使用 PPO 算法为控制问题训练强化学习代理。我正在跟踪训练过程中每一集的累积奖励。在训练过程中，我多次看到累积的奖励突然下降。我无法弄清楚为什么会发生这种情况或如何避免这种情况。尝试更改一些超参数，例如更改神经网络层中的神经元数量、学习率等。但我仍然看到这种情况一直在发生。如果我调试并检查在下跌期间采取的行动，显然行动是非常糟糕的，因此会导致奖励减少。

有人可以帮助我了解为什么会发生这种情况或如何避免这种情况吗？

我的训练过程中的一些情节

【问题讨论】：

标签： artificial-intelligence reinforcement-learning agent temporal-difference dqn

【解决方案1】：

我最近读了这篇论文：https://arxiv.org/pdf/1805.07917.pdf 我没有特别使用这种方法，所以我不能保证它的有用性，但是对这个问题的解释对我来说似乎很有说服力：

例如，在学习过程中，猎豹受益于向前倾以增加其速度，从而在该方向上产生强烈的梯度。然而，如果猎豹倾斜太多，它就会倒下。基于梯度的方法似乎经常陷入这个陷阱，然后无法恢复，因为来自新状态的梯度信息无法保证撤消最后一次梯度更新。

【讨论】：