马尔科夫决策过程(Markov Decision Process)MDP

  • 假设状态s下采取动作a,转到下一个状态s′的概率,表示为PssaP_{ss'}^a
  • 如果按照真实的环境转化过程看,转化到下一个状态s′的概率既与上一个状态s有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态s′的概率仅与上一个状态s有关,与之前的状态无关。用公式表示就是:
    Pssa=E(St+1=sSt=s,At=a)P_{ss'}^a = E(S_{t+1}=s'|S_t = s,A_t=a)
  • 价值函数:vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+St=s)v_\pi(s) =E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+…|S_t=s)
  • 贝尔曼方程(Bellman Equation):vπ(s)=Eπ(Rt+1+γvπ(St+1)St=s)v_\pi(s) =E_\pi(R_{t+1}+\gamma v_\pi (S_{t+1})|S_t=s)

1. DQN

论文内容

  • 奖励函数:Rt=t=tTγttrtR_t = \sum_{t'=t}^T\gamma^{t'-t}r_{t'}
  • Q表中的每一项:Q(s,a)=maxπE[RtSt=s,at=a,π]Q^*(s,a) = max_\pi E[R_t|S_t=s,a_t=a,\pi]
  • DQN是 model-free、off-policy的
  • DQN中的神经网络输入为每个状态,输出为所有可能动作对应的Q值
    【强化学习】入门学习

博客内容

(1)DQN利用深度卷积神经网络逼近值函数;

(2)DQN利用经验回放(experience replay)训练强化学习的学习过程;

(3)Nature DQN独立设置了目标网络来解决训练收敛的问题。

相关文章: