8 Actor Critic

Policy Gradient 能够让算法在连续的空间中选择动作。
Value-Based 方法能够实现单步更新，而Policy Gradient是回合更新。
8 Actor Critic
Critic 部分学习出系统的奖惩值，
由学习到的奖惩值指导Actor的动作。

每次参数更新都存在相关性，导致神经网络只能片面的看待问题。

为解决在连续动作上预测学不到东西的问题

https://www.bilibili.com/video/av16921335?p=25

2021-04-10
2021-05-31
2022-01-02
2021-12-14
2022-01-08
2021-09-20
2021-12-01
2021-10-28