A2C, A3C, PPO 都不是纯 policy based 的 RL 方法,准确地说是 Actor-Critic 方法,即,同时用到了 value function 和 policy funtion.

这三种方法之间有什么区别呢?

A2C

这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种,A2C 是在 Actor-Critic 方法的基础上多了一个 advantage : r+v(s)v(s)r + v(s') - v(s)

RL policy gradient 之 A2C, A3C,PPO小总结

A3C

很好理解,比 A2C 多一个A:Asynchronous,是一种异步更新的方法

PPO

比上面两种方法又多了一个 clip 操作

RL policy gradient 之 A2C, A3C,PPO小总结

相关文章:

  • 2022-02-02
  • 2021-06-07
  • 2021-12-05
  • 2022-01-07
  • 2021-07-13
  • 2021-07-03
  • 2021-07-20
  • 2021-05-28
猜你喜欢
  • 2022-01-12
  • 2021-09-30
  • 2021-09-29
  • 2021-12-05
  • 2021-06-26
  • 2021-12-13
  • 2021-09-12
相关资源
相似解决方案