题目描述-格子游戏:

        每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:

强化学习习题-动态规划策略学习格子问题

(1)策略估值:使用动态规划方法求当前策略下每一格子对应的状态估值

解:

强化学习习题-动态规划策略学习格子问题

 

(2) 策略提升:写出上述估值函数对应的贪心策略

解:

强化学习习题-动态规划策略学习格子问题

(3)最优策略:求解该问题最优策略及其相应的状态估值

解:

强化学习习题-动态规划策略学习格子问题

状态不变,最大策略为:

强化学习习题-动态规划策略学习格子问题

 

相关文章:

  • 2021-07-29
  • 2021-12-05
  • 2022-12-23
  • 2021-07-01
  • 2021-10-31
  • 2021-05-08
  • 2021-11-06
  • 2022-12-23
猜你喜欢
  • 2021-10-17
  • 2021-07-06
  • 2021-09-10
  • 2021-05-04
  • 2021-07-10
  • 2021-06-16
  • 2021-04-15
相关资源
相似解决方案