马尔科夫决策过程在离散马尔科夫的基础上,引入奖励和动作。马尔科夫性表示t+1的状态只与t时刻有关。在马尔科夫决策过程中,agent已知一系列状态,动作和折扣率,但是一步的环境动态特性和rewards是不知道的。

强化学习之马尔科夫决策过程 5
强化学习之马尔科夫决策过程 5
次图描述了马尔科夫决策过程。图中唯一个自动充电吸尘器,他有2个状态high电量和low电量,有3个动作wait,search,recharge。蓝色的数字代表采取该行动的概率,黄色代表收获的reward。例如吸尘器处于low状态,如果采取行动search的话
接下来的状态可能是high电量或者low电量。0.8的概率会在search的过程中没电需要人帮忙充电,给予智能体-3的奖励。
0.2的概率会依然有电,打扫完奖励4,到达low状态。

相关文章:

  • 2021-05-02
  • 2021-11-03
  • 2021-11-25
  • 2021-05-26
  • 2021-10-01
  • 2021-10-02
  • 2022-01-07
猜你喜欢
  • 2021-07-05
  • 2021-04-06
  • 2021-09-09
  • 2021-04-26
  • 2021-05-27
  • 2021-10-03
  • 2021-08-06
相关资源
相似解决方案