李宏毅强化学习学习笔记-policy gradient and PPO

1、强化学习policy gradient中，为什么需要将reward减去一个baseline？

李宏毅强化学习学习笔记-policy gradient and PPO

策略梯度在进行优化的时候，使用的都是对数据进行采样，当所有的奖励都是正的时候，会对所有的梯度方向都鼓励，但是是进行归一化的，所以对那些奖励较少的方向，起到了抑制的效果。但是由于采样操作，当高奖励的动作没有sample到的时候，那些低奖励的动作就被鼓励执行了。

相关文章：

2021-12-13
2021-08-22
2021-11-19
2021-12-18
2021-08-15
2021-05-17
2021-10-08
2021-12-07

猜你喜欢

2021-09-05
2021-09-17
2021-12-21
2021-05-18
2022-01-14
2021-07-17
2021-10-17

相关资源

下载 2023-02-06
下载 2023-04-02
下载 2023-04-03
下载 2023-02-14

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode