学习地址
1 马尔可夫决策过程
价值函数和行为价值函数

价值函数的递归性质

随机策略、确定性策略

二、算法:Policy Iteration策略迭代、价值迭代
策略迭代

价值迭代

三 无模型强化学习Model-free RL



红白机游戏

相关文章:
-
2022-12-23
-
2021-12-25
-
2021-09-01
-
2021-12-13
-
2021-08-01
-
2021-10-02
-
2022-01-24
猜你喜欢
-
2021-07-11
-
2021-04-06
-
2022-01-16
-
2021-04-28
-
2022-12-23
-
2022-12-23
-
2021-11-28
相关资源
-
下载
2023-02-06
-
下载
2021-06-26
-
下载
2023-04-03
-
下载
2023-02-14