强化学习:马尔可夫决策过程(贝尔曼最优方程)

 

强化学习:马尔可夫决策过程(贝尔曼最优方程)

                       贝尔曼最优方程推导(来源:B站up主:shuhuai008)

1.明确一下概念间的关系

2.反证法证明 v*(s)=max(a)_q*(s,a)

3.“套娃”得到贝尔曼最优方程

强化学习:马尔可夫决策过程(贝尔曼最优方程)

 

 

参考资料:

1.https://www.bilibili.com/video/BV1RA411q7wt?p=5,B站UP主:shuhuai008

相关文章:

  • 2022-02-17
  • 2021-05-15
  • 2021-10-30
  • 2021-09-09
  • 2021-04-26
  • 2021-07-04
  • 2021-11-11
  • 2021-08-10
猜你喜欢
  • 2021-05-09
  • 2021-10-03
  • 2021-04-06
  • 2021-11-25
  • 2022-01-06
  • 2022-12-23
相关资源
相似解决方案