视频地址:https://www.bilibili.com/video/av63546968?p=2

课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

Proximal Policy Optimization (PPO)

强化学习Proximal Policy Optimization (PPO) 原理

所谓 on-policy 指我们学习的 agent(即actor) 和与环境交互的 agent 是相同的,即 agent 一边和环境互动,一边学习

 off-policy 指我们学习的 agent 与环境交互的 agent 是不同的,即 agent 通过看别人玩游戏来学习

强化学习Proximal Policy Optimization (PPO) 原理

On-policy的不足:

使用actor$\pi $强化学习Proximal Policy Optimization (PPO) 原理

相关文章:

  • 2021-09-05
  • 2021-09-17
  • 2021-12-12
  • 2021-05-18
  • 2021-11-20
  • 2021-07-17
  • 2021-09-25
  • 2021-08-21
猜你喜欢
  • 2021-06-07
  • 2021-05-05
  • 2021-12-05
  • 2021-12-04
  • 2021-07-20
  • 2022-01-07
  • 2021-08-06
相关资源
相似解决方案