【发布时间】:2021-02-17 23:13:19
【问题描述】:
我在我的自建任务中实施 PPO2 强化学习,并且总是遇到这样的情况,即代理似乎已接近成熟,然后突然灾难性地失去其性能并且无法保持其稳定的性能。我不知道用什么词来形容它。
我只是想知道造成这种灾难性性能下降的原因是什么?有什么提示或技巧吗?
非常感谢
【问题讨论】:
标签: python pytorch reinforcement-learning policy-gradient-descent
我在我的自建任务中实施 PPO2 强化学习,并且总是遇到这样的情况,即代理似乎已接近成熟,然后突然灾难性地失去其性能并且无法保持其稳定的性能。我不知道用什么词来形容它。
我只是想知道造成这种灾难性性能下降的原因是什么?有什么提示或技巧吗?
非常感谢
【问题讨论】:
标签: python pytorch reinforcement-learning policy-gradient-descent
我猜你的奖励函数没有上限,并且在某些边缘情况下会产生极高的负奖励。
防止这种情况发生的两件事是:
大多数时候这没什么大不了的,但如果你不走运,你的环境甚至会产生 NaN 值,这会破坏你的网络
【讨论】: