1、强化学习policy gradient中,为什么需要将reward减去一个baseline?

李宏毅强化学习学习笔记-policy gradient and PPO

策略梯度在进行优化的时候,使用的都是对数据进行采样,当所有的奖励都是正的时候,会对所有的梯度方向都鼓励,但是是进行归一化的,所以对那些奖励较少的方向,起到了抑制的效果。但是由于采样操作,当高奖励的动作没有sample到的时候,那些低奖励的动作就被鼓励执行了。

 

 

 

相关文章:

  • 2021-12-13
  • 2021-08-22
  • 2021-11-19
  • 2021-12-18
  • 2021-08-15
  • 2021-05-17
  • 2021-10-08
  • 2021-12-07
猜你喜欢
  • 2021-09-05
  • 2021-09-17
  • 2021-12-21
  • 2021-05-18
  • 2022-01-14
  • 2021-07-17
  • 2021-10-17
相关资源
相似解决方案