【问题标题】:PPO2 reinforcement learning 'catastrophic forgetting'?PPO2强化学习“灾难性遗忘”?
【发布时间】:2021-02-17 23:13:19
【问题描述】:

我在我的自建任务中实施 PPO2 强化学习,并且总是遇到这样的情况,即代理似乎已接近成熟,然后突然灾难性地失去其性能并且无法保持其稳定的性能。我不知道用什么词来形容它。

我只是想知道造成这种灾难性性能下降的原因是什么?有什么提示或技巧吗?

非常感谢

learningprocess1learningprocess2

【问题讨论】:

    标签: python pytorch reinforcement-learning policy-gradient-descent


    【解决方案1】:

    我猜你的奖励函数没有上限,并且在某些边缘情况下会产生极高的负奖励。

    防止这种情况发生的两件事是:

    1. 限制奖励函数的值
    2. 确保您可以处理学习环境不稳定的情况,例如进程崩溃、冻结、遇到错误。例如,如果您在代理跌倒(机器人试图行走)时给予负奖励,并且由于一些罕见的错误,环境没有检测到跌倒,那么您的奖励函数会一直给予负奖励,直到情节停止。

    大多数时候这没什么大不了的,但如果你不走运,你的环境甚至会产生 NaN 值,这会破坏你的网络

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2013-12-06
      • 2018-11-05
      • 2019-04-16
      • 2016-10-24
      • 2022-09-28
      • 2018-01-14
      • 2019-01-18
      相关资源
      最近更新 更多