【发布时间】:2017-08-28 16:55:39
【问题描述】:
在许多强化学习 (RL) 论文中,马尔可夫决策过程 (MDP) 是 RL 问题的典型问题设置。这种设置的真正好处是什么?一些论文使用 LSTM 作为他们的策略网络结构,这显然违反了 MDP 假设并且更有意义。
【问题讨论】:
标签: machine-learning deep-learning reinforcement-learning
在许多强化学习 (RL) 论文中,马尔可夫决策过程 (MDP) 是 RL 问题的典型问题设置。这种设置的真正好处是什么?一些论文使用 LSTM 作为他们的策略网络结构,这显然违反了 MDP 假设并且更有意义。
【问题讨论】:
标签: machine-learning deep-learning reinforcement-learning
基本上,马尔可夫决策过程提供了一个理论框架,允许分析算法的收敛保证以及其他理论属性。尽管 LSTM 和其他与 RL 相结合的深度学习方法取得了令人印象深刻的结果,但它们缺乏扎实的理论背景,无法理解或确保算法何时会学习到有用的东西,或者学习到的策略与最优策略的差距有多大。
【讨论】: