PPO2强化学习“灾难性遗忘”？

【问题标题】：PPO2 reinforcement learning 'catastrophic forgetting'?PPO2强化学习“灾难性遗忘”？
【发布时间】：2021-02-17 23:13:19
【问题描述】：

我在我的自建任务中实施 PPO2 强化学习，并且总是遇到这样的情况，即代理似乎已接近成熟，然后突然灾难性地失去其性能并且无法保持其稳定的性能。我不知道用什么词来形容它。

我只是想知道造成这种灾难性性能下降的原因是什么？有什么提示或技巧吗？

非常感谢

learningprocess1 learningprocess2

【问题讨论】：

标签： python pytorch reinforcement-learning policy-gradient-descent

【解决方案1】：

我猜你的奖励函数没有上限，并且在某些边缘情况下会产生极高的负奖励。

防止这种情况发生的两件事是：

限制奖励函数的值
确保您可以处理学习环境不稳定的情况，例如进程崩溃、冻结、遇到错误。例如，如果您在代理跌倒（机器人试图行走）时给予负奖励，并且由于一些罕见的错误，环境没有检测到跌倒，那么您的奖励函数会一直给予负奖励，直到情节停止。

大多数时候这没什么大不了的，但如果你不走运，你的环境甚至会产生 NaN 值，这会破坏你的网络

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2013-12-06
2018-11-05
2019-04-16
2016-10-24
2022-09-28
2018-01-14
2019-01-18

相关资源

下载 2022-12-17
下载 2021-06-05
下载 2023-02-14

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode