有一个4*4的矩阵,0和15代表出口

强化学习(五)---基于模型的强化学习实战

强化学习(五)---基于模型的强化学习实战

强化学习(五)---基于模型的强化学习实战

强化学习(五)---基于模型的强化学习实战

强化学习(五)---基于模型的强化学习实战

强化学习(五)---基于模型的强化学习实战

强化学习(五)---基于模型的强化学习实战

强化学习(五)---基于模型的强化学习实战

结果输出第一个矩阵一共输出16个向量,每个向量里面的位置代表,在当前状态往哪里走比较好,第二个矩阵对第一个矩阵进行统计处理,更加直观,也是表示在16个状态,每个位置最好的动作方向

参考资料:唐宇迪视频

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-06-26
  • 2021-05-15
  • 2021-07-22
  • 2021-12-04
  • 2022-01-09
  • 2021-10-22
猜你喜欢
  • 2021-05-25
  • 2021-04-08
  • 2021-12-18
  • 2021-04-17
  • 2021-12-29
  • 2021-07-07
  • 2021-12-07
相关资源
相似解决方案