【强化学习】入门学习

马尔科夫决策过程(Markov Decision Process）MDP

假设状态s下采取动作a,转到下一个状态s′的概率，表示为 $P_{ss'}^a$
如果按照真实的环境转化过程看，转化到下一个状态s′的概率既与上一个状态s有关，还与上上个状态，以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂，复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性，也就是假设转化到下一个状态s′的概率仅与上一个状态s有关，与之前的状态无关。用公式表示就是：
$P_{ss'}^a = E(S_{t+1}=s'|S_t = s,A_t=a)$
价值函数： $v_\pi(s) =E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+…|S_t=s)$
贝尔曼方程(Bellman Equation)： $v_\pi(s) =E_\pi(R_{t+1}+\gamma v_\pi (S_{t+1})|S_t=s)$

1. DQN

论文内容

奖励函数： $R_t = \sum_{t'=t}^T\gamma^{t'-t}r_{t'}$
Q表中的每一项: $Q^*(s,a) = max_\pi E[R_t|S_t=s,a_t=a,\pi]$
DQN是 model-free、off-policy的
DQN中的神经网络输入为每个状态，输出为所有可能动作对应的Q值

博客内容

（1）DQN利用深度卷积神经网络逼近值函数；

（2）DQN利用经验回放（experience replay）训练强化学习的学习过程；

（3）Nature DQN独立设置了目标网络来解决训练收敛的问题。

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode