马尔可夫决策过程
马尔可夫决策链与马尔可夫奖励过程
马尔可夫、马尔可夫奖励过程;这两个过程是马尔可夫决策过程的一个基础。
马尔可夫
如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。
如果某一个过程满足 马尔可夫性质(Markov Property) ,就是说未来的转移跟过去是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
马尔可夫奖励过程(Markov Reward Process MRP)
马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。
奖励函数是一个期望.
通过一个形象的例子来理解 MRP,你可以把它看成一个纸船。我们把一个纸船放到河流之中,那么它就会随着这个河流而流动,它自身是没有动力的,所以
你可以把 MRP 看成是一个随波逐流的例子,当我们从某一个点开始的时候,这个纸船就会随着事先定义好的状态转移进行流动,它到达每个状态过后,我们就有可能获得一些奖励。
这个推导过程没有完全看懂:(标注)
疑问:矩阵求逆的过程的时间复杂度为什么是O(N^3)
蒙特卡罗采样的方法:
马尔可夫决策过程中的policy evaluation
相对于 MRP, 马尔可夫决策过程(Markov Decision Process) 多了一个 decision ,其它的定义跟 MRP 都是类似的。这里我们多了一个决策,多了一个 action,那么这个状态转移也多了一个 condition,就是你采取某一种行为,然后你未来的状态会不同。它不仅是依赖于你当前的状态,也依赖于在当前状态你这个 agent 它采取的这个行为会决定它未来的这个状态走向。对于这个价值函数,它也是多了一个条件,多了一个你当前的这个行为,就是说你当前的状态以及你采取的行为会决定你在当前可能得到的奖励多少。
MDP 里面的状态转移跟 MRP 以及 MP 的一个差异。
- 马尔可夫过程的转移是直接就决定。比如当前状态是 s,那么就直接通过这个转移概率决定了下一个状态是什么。
- 但对于 MDP,它的中间多了一层这个行为 a ,就是说在你当前这个状态的时候,首先要决定的是采取某一种行为,那么你会到了某一个黑色的节点。到了这个黑色的节点,因为你有一定的不确定性,当你当前状态决定过后以及你当前采取的行为过后,你到未来的状态其实也是一个概率分布。所以你采取行为后,你可能有多大的概率到达某一个未来状态,以及另外有多大概率到达另外一个状态。所以在这个当前状态跟未来状态转移过程中这里多了一层决策性,这是 MDP 跟之 前的马尔可夫过程很不同的一个地方。在马尔可夫决策过程中,行为是由 agent 决定,所以多了一个 component,agent 会采取行为来决定未来的状态转移。
这里也暂时没懂
这里我从常规逻辑懂了,但是直接从数学公式上还不知道应该如何推导;
马尔可夫决策过程中的控制
MDP Control 说的就是怎么去寻找一个最佳的策略,然后我们可以得到一个最大的价值函数。