为什么我们需要在强化学习中设置 MDP

【问题标题】：Why do we need MDP setting in reinforcement learning为什么我们需要在强化学习中设置 MDP
【发布时间】：2017-08-28 16:55:39
【问题描述】：

在许多强化学习 (RL) 论文中，马尔可夫决策过程 (MDP) 是 RL 问题的典型问题设置。这种设置的真正好处是什么？一些论文使用 LSTM 作为他们的策略网络结构，这显然违反了 MDP 假设并且更有意义。

【问题讨论】：

【解决方案1】：

基本上，马尔可夫决策过程提供了一个理论框架，允许分析算法的收敛保证以及其他理论属性。尽管 LSTM 和其他与 RL 相结合的深度学习方法取得了令人印象深刻的结果，但它们缺乏扎实的理论背景，无法理解或确保算法何时会学习到有用的东西，或者学习到的策略与最优策略的差距有多大。

【讨论】：