【问题标题】:Why is Policy Iteration faster than Value Iteration?为什么策略迭代比价值迭代快?
【发布时间】:2019-11-25 12:50:33
【问题描述】:

我们知道策略迭代直接为我们提供策略,因此速度更快。但是谁能用一些例子来解释一下。

【问题讨论】:

    标签: value-iteration


    【解决方案1】:

    策略迭代更快的原因是因为 - 一个策略可以由无限数量的价值函数表示,所以在策略迭代中,当你从一个策略跳到另一个策略时......你实际上已经跳过了无限数量的价值函数。

    例如:

    p1 = [0, 1, 1]

    是一个针对 3 个状态和 2 个动作的策略,它在状态 0 处选择动作 0,在状态 1 和 2 处选择动作 1。

    现在,让我们考虑两个价值函数:

    v1 = [[0.9, 0.6], [0.6, 0.8], [0.8, 0.9]]

    v2 = [[0.9, 0.6], [0.7, 0.8], [0.6, 0.9]]

    这里,v1 和 v2 都映射到同一个策略,所以当您进行策略迭代时,就好像您不关心这两个是不同的值函数,因为它们映射到同一个策略。因此,当您更新策略时,您实际上已经丢弃了大量这些值函数,在进行值迭代时,您可能已经迭代了每个值函数(在最坏的情况下)。

    【讨论】:

      猜你喜欢
      • 2017-09-29
      • 2016-09-19
      • 1970-01-01
      • 2020-01-10
      • 2012-01-31
      • 2018-11-17
      • 1970-01-01
      • 2019-03-25
      • 1970-01-01
      相关资源
      最近更新 更多