【问题标题】:Why do we need MDP setting in reinforcement learning为什么我们需要在强化学习中设置 MDP
【发布时间】:2017-08-28 16:55:39
【问题描述】:

在许多强化学习 (RL) 论文中,马尔可夫决策过程 (MDP) 是 RL 问题的典型问题设置。这种设置的真正好处是什么?一些论文使用 LSTM 作为他们的策略网络结构,这显然违反了 MDP 假设并且更有意义。

【问题讨论】:

    标签: machine-learning deep-learning reinforcement-learning


    【解决方案1】:

    基本上,马尔可夫决策过程提供了一个理论框架,允许分析算法的收敛保证以及其他理论属性。尽管 LSTM 和其他与 RL 相结合的深度学习方法取得了令人印象深刻的结果,但它们缺乏扎实的理论背景,无法理解或确保算法何时会学习到有用的东西,或者学习到的策略与最优策略的差距有多大。

    【讨论】:

      猜你喜欢
      • 2019-03-25
      • 2018-11-17
      • 2019-10-12
      • 2018-11-05
      • 2016-10-24
      • 2018-06-09
      • 2021-05-14
      • 2018-11-06
      • 2013-06-24
      相关资源
      最近更新 更多