David Silver 第二讲MDP基本概念

本文只是作者个人理解,如有错误,欢迎各位指正。

一、基本定义

David Silver 第二讲MDP基本概念(通俗理解)

MDP过程是一个五元组——状态空间+行为空间+状态转移概率空间+奖励+折扣因子

其中,状态空间,折扣因子类比于MRP(马尔可夫奖励过程)

对于,行为空间:一组有限行为的集合,例:走迷宫游戏的(上下左右四个动作)构成行为空间

           状态转移概率:与MP(马尔可夫过程)和MRP(马尔可夫奖励过程)不同,MDP加入了行为(Action)的影响。例:无人操控的小船状态转移完全服从传统的状态转移矩阵,即David Silver 第二讲MDP基本概念(通俗理解),但是对于有人操控的小船,状态转移受到了人的影响,此时David Silver 第二讲MDP基本概念(通俗理解)。注意:这里人的行为(即a)对状态转移的影响是概率事件,也就是说,小船在状态David Silver 第二讲MDP基本概念(通俗理解)的时候加入人的行为David Silver 第二讲MDP基本概念(通俗理解),小船下一个状态也是随机的,只不过这个随机概率和没人操控时小船状态变化的随机概率不一样。

           奖励:MRP中的奖励定义为:David Silver 第二讲MDP基本概念(通俗理解),MDP加入了行为(Action)的影响。简单理解:身处状态s,系统并不会给Agent奖励,而是身处状态s并做动作a,系统才会给Agent奖励。

引用David Silver的Student MDP例子说明:

David Silver 第二讲MDP基本概念(通俗理解)

1、状态空间:包含五个状态:1~5,比较容易理解;

2、行为空间:{FaceBook  Study   Pub    Quit};

3、状态转移概率:例:David Silver 第二讲MDP基本概念(通俗理解);这里=1是一个巧合,即只要在状态1下学习必定到达状态2

 正常一点的例子:

David Silver 第二讲MDP基本概念(通俗理解)David Silver 第二讲MDP基本概念(通俗理解)David Silver 第二讲MDP基本概念(通俗理解)

这里表示在状态3下进行Pub动作可以到达1,2,3中任一个状态,且服从0.2,0.4,0.4的概率分布,这个就是上面的公式David Silver 第二讲MDP基本概念(通俗理解)

即在状态David Silver 第二讲MDP基本概念(通俗理解)下加入人的行为David Silver 第二讲MDP基本概念(通俗理解),下一个状态是随机的。

4、奖励:(状态-动作)二元组来决定奖励。

             (1) 不同状态下做相同动作的奖励不同。例:状态3下做Study的动作奖励为10,状态1下做Study的动作奖励为-2

             (2) 同一状态下做不同动作的奖励不同。例:状态1下做Study的动作奖励为-2,状态1下做FaceBook的动作奖励为-1

             所以在MDP中,奖励和所处状态采取行为都有关。

二、策略Policy

Writing...

相关文章:

  • 2021-07-10
  • 2021-06-07
  • 2021-08-01
  • 2022-12-23
  • 2021-12-13
  • 2021-11-29
  • 2021-08-10
  • 2022-12-23
猜你喜欢
  • 2021-11-02
  • 2022-12-23
  • 2021-12-18
  • 2021-10-08
  • 2021-08-30
  • 2022-12-23
  • 2021-09-02
相关资源
相似解决方案