强化学习——off-policy

Table of Contents

p(x)/q(x)是一个权重

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布

我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度

分子分母差别过大会导致，效果不好

优化参数的同时，保持行为尽量一致，类似于一个正则化

左图是正面情况，更新参数，a发生的几率增加，往右跑；右图是负面情况，更新参数，a发生的几率减少，不过不能让p变化太大。

强化学习——off-policy

强化学习——off-policy

p(x)/q(x)是一个权重

强化学习——off-policy

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布

我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改

强化学习——off-policy

强化学习——off-policy

分子分母差别过大会导致，效果不好

优化参数的同时，保持行为尽量一致，类似于一个正则化

强化学习——off-policy

左图是正面情况，更新参数，a发生的几率增加，往右跑；右图是负面情况，更新参数，a发生的几率减少，不过不能让p变化太大。

相关文章：

2021-12-19
2021-04-22
2021-12-14
2022-01-24
2021-03-28
2022-01-22
2021-12-18
2021-05-15

猜你喜欢

2021-05-23
2021-11-04
2021-04-25
2021-12-04
2021-09-24
2021-07-04
2021-05-27

相关资源

下载 2021-06-05
下载 2023-02-14
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode