强化学习bellman求状态价值笔记

现在求在State5状态下的VAL
首先选择a3操作的概率是0.5,即时奖励是10,到达stop位
然后选择a4操作的概率也是0.5,即时奖励是1,还没完
 此时走到的位置往下走有三种可能
 走第一条路的概率是0.2,目标点VAL是-1.3
 走第二条路的概率是0.4,目标点VAL是2.7
 走第三条路的概率是0.4,目标点VAL是7.4

 

 

 

相关文章:

  • 2021-11-28
  • 2022-12-23
  • 2021-04-14
  • 2021-10-21
  • 2021-09-09
  • 2021-10-27
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-10-02
  • 2021-12-31
  • 2021-11-10
  • 2022-01-05
相关资源
相似解决方案