[Reinforcement Learning] 马尔可夫决策过程

阅读目录

情节性任务 vs. 连续任务

引用维基百科对马尔可夫性的定义：

马尔可夫性：当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态

用数学形式表示如下：

马尔可夫过程即为具有马尔可夫性的过程，即过程的条件概率仅仅与系统的当前状态相关，而与它的过去历史或未来状态都是独立、不相关的。

马尔可夫奖赏过程（Markov Reward Process，MRP）是带有奖赏值的马尔可夫过程，其可以用一个四元组表示 <S,P,R,γ>。

在 t 时刻的奖赏值 Gt：

[Reinforcement Learning] 马尔可夫决策过程

关于Return的计算为什么需要 γγ 折扣系数。David Silver 给出了下面几条的解释：

数学表达的方便

避免陷入无限循环

远期利益具有一定的不确定性

在金融学上，立即的回报相对于延迟的回报能够获得更多的利益

符合人类更看重眼前利益的特点

状态 ss 的长期价值函数表示为：

[Reinforcement Learning] 马尔可夫决策过程

马尔可夫决策过程（Markov Decision Process，MDP）是带有决策的MRP，其可以由一个五元组构成 <S,A,P,R,γ>。

[Reinforcement Learning] 马尔可夫决策过程

策略（Policy）是给定状态下的动作概率分布，即：

π(a|s)=P[A_t=a|S_t=a]

给定策略 π 下状态 s 的状态价值函数（State-Value Function）v_π(s)

[Reinforcement Learning] 马尔可夫决策过程