RL policy gradient 之 A2C, A3C,PPO小总结

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法，准确地说是 Actor-Critic 方法，即，同时用到了 value function 和 policy funtion.

这三种方法之间有什么区别呢？

这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种，A2C 是在 Actor-Critic 方法的基础上多了一个 advantage : $r + v(s') - v(s)$

很好理解，比 A2C 多一个A：Asynchronous，是一种异步更新的方法

比上面两种方法又多了一个 clip 操作

RL policy gradient 之 A2C, A3C,PPO小总结