强化学习bellman求状态价值笔记

强化学习bellman求状态价值笔记

现在求在State5状态下的VAL
首先选择a3操作的概率是0.5，即时奖励是10，到达stop位
然后选择a4操作的概率也是0.5，即时奖励是1，还没完
此时走到的位置往下走有三种可能
走第一条路的概率是0.2，目标点VAL是-1.3
走第二条路的概率是0.4，目标点VAL是2.7
走第三条路的概率是0.4，目标点VAL是7.4

相关文章：

2021-11-28
2022-12-23
2021-04-14
2021-10-21
2021-09-09
2021-10-27
2022-12-23

猜你喜欢

2022-12-23
2021-10-02
2021-12-31
2021-11-10
2022-01-05

相关资源

下载 2023-02-06
下载 2023-04-02
下载 2023-04-03
下载 2023-02-14

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode