Table of Contents

p(x)/q(x)是一个权重

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布

我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度

分子分母差别过大会导致,效果不好

优化参数的同时,保持行为尽量一致,类似于一个正则化

 

左图是正面情况,更新参数,a发生的几率增加,往右跑;右图是负面情况,更新参数,a发生的几率减少,不过不能让p变化太大。


强化学习——off-policy

强化学习——off-policy

p(x)/q(x)是一个权重

强化学习——off-policy

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布

我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改

强化学习——off-policy

强化学习——off-policy

分子分母差别过大会导致,效果不好

优化参数的同时,保持行为尽量一致,类似于一个正则化

强化学习——off-policy

 

强化学习——off-policy

左图是正面情况,更新参数,a发生的几率增加,往右跑;右图是负面情况,更新参数,a发生的几率减少,不过不能让p变化太大。

 

 

 

相关文章:

  • 2021-12-19
  • 2021-04-22
  • 2021-12-14
  • 2022-01-24
  • 2021-03-28
  • 2022-01-22
  • 2021-12-18
  • 2021-05-15
猜你喜欢
  • 2021-05-23
  • 2021-11-04
  • 2021-04-25
  • 2021-12-04
  • 2021-09-24
  • 2021-07-04
  • 2021-05-27
相关资源
相似解决方案