学习地址

1 马尔可夫决策过程

价值函数和行为价值函数

学习笔记:强化学习在机器人中的应用

价值函数的递归性质

学习笔记:强化学习在机器人中的应用

随机策略、确定性策略

学习笔记:强化学习在机器人中的应用

二、算法:Policy Iteration策略迭代、价值迭代

策略迭代

学习笔记:强化学习在机器人中的应用

价值迭代

学习笔记:强化学习在机器人中的应用

三 无模型强化学习Model-free RL

学习笔记:强化学习在机器人中的应用
学习笔记:强化学习在机器人中的应用
学习笔记:强化学习在机器人中的应用

红白机游戏

学习笔记:强化学习在机器人中的应用

相关文章:

  • 2022-12-23
  • 2021-12-25
  • 2021-09-01
  • 2021-12-13
  • 2021-08-01
  • 2021-10-02
  • 2022-01-24
猜你喜欢
  • 2021-07-11
  • 2021-04-06
  • 2022-01-16
  • 2021-04-28
  • 2022-12-23
  • 2022-12-23
  • 2021-11-28
相关资源
相似解决方案