马尔科夫决策过程(Markov Decision Process)MDP
- 假设状态s下采取动作a,转到下一个状态s′的概率,表示为Pss′a
- 如果按照真实的环境转化过程看,转化到下一个状态s′的概率既与上一个状态s有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态s′的概率仅与上一个状态s有关,与之前的状态无关。用公式表示就是:
Pss′a=E(St+1=s′∣St=s,At=a)
- 价值函数:vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+…∣St=s)
- 贝尔曼方程(Bellman Equation):vπ(s)=Eπ(Rt+1+γvπ(St+1)∣St=s)
1. DQN
论文内容
- 奖励函数:Rt=∑t′=tTγt′−trt′
- Q表中的每一项:Q∗(s,a)=maxπE[Rt∣St=s,at=a,π]
- DQN是 model-free、off-policy的
- DQN中的神经网络输入为每个状态,输出为所有可能动作对应的Q值
博客内容
(1)DQN利用深度卷积神经网络逼近值函数;
(2)DQN利用经验回放(experience replay)训练强化学习的学习过程;
(3)Nature DQN独立设置了目标网络来解决训练收敛的问题。