【发布时间】:2020-03-20 18:46:24
【问题描述】:
您好,我正在使用 PPO 算法为控制问题训练强化学习代理。我正在跟踪训练过程中每一集的累积奖励。在训练过程中,我多次看到累积的奖励突然下降。我无法弄清楚为什么会发生这种情况或如何避免这种情况。尝试更改一些超参数,例如更改神经网络层中的神经元数量、学习率等。但我仍然看到这种情况一直在发生。 如果我调试并检查在下跌期间采取的行动,显然行动是非常糟糕的,因此会导致奖励减少。
有人可以帮助我了解为什么会发生这种情况或如何避免这种情况吗?
我的训练过程中的一些情节
【问题讨论】:
标签: artificial-intelligence reinforcement-learning agent temporal-difference dqn