【问题标题】:What is a policy in reinforcement learning? [closed]强化学习的策略是什么? [关闭]
【发布时间】:2018-02-25 21:32:40
【问题描述】:

我见过这样的词:

策略定义了学习代理在给定时间的行为方式。大致 也就是说,政策是从感知的环境状态到在这些状态下要采取的行动的映射。

但还是没完全明白。强化学习中的策略到底是什么?

【问题讨论】:

    标签: machine-learning terminology reinforcement-learning markov-decision-process


    【解决方案1】:

    这个定义是正确的,但如果你第一次看到它,它就不是很明显。让我这样说吧:策略是代理的策略

    例如,想象一个机器人在房间内移动的世界,其任务是到达目标点 (x, y),并在那里获得奖励。这里:

    • 房间是一个环境
    • 机器人的当前位置是一个状态
    • 策略是代理为完成此任务所做的:

      • 愚蠢的机器人只是随意四处游荡,直到它们意外地落到正确的地方(策略 #1)
      • 由于某些原因,其他人可能会在大部分路线中学会沿墙行走(策略 #2)
      • 智能机器人在“头脑”中规划路线并直奔目标(策略 #3)

    显然,有些策略比其他策略更好,并且有多种方法可以评估它们,即状态-价值函数动作-价值函数。 RL 的目标是学习最佳策略。现在定义应该更有意义了(注意在上下文中时间被更好地理解为一种状态):

    策略定义了学习代理在给定时间的行为方式。

    正式

    更正式地说,我们应该首先将马尔可夫决策过程(MDP)定义为一个元组(SAPRy),其中:

    • S 是一组有限状态
    • A 是一组有限的操作
    • P 是一个状态转移概率矩阵(每个当前状态和每个动作最终进入某个状态的概率)
    • R 是一个奖励函数,给定一个状态和一个动作
    • y 是折扣因子,介于 0 和 1 之间

    然后,策略π 是给定状态下动作的概率分布。这是代理处于特定状态时每个动作的可能性(当然,我在这里跳过了很多细节)。此定义对应于您定义的第二部分。

    我强烈推荐 YouTube 上的 David Silver's RL course。前两讲特别关注 MDP 和政策。

    【讨论】:

      【解决方案2】:

      简单来说,在最简单的情况下,策略π 是一个函数,它以状态s 作为输入并返回一个动作a。即:π(s) → a

      通过这种方式,代理通常使用策略来决定当它处于给定状态s 时应该执行什么操作a

      有时,策略可以是随机的,而不是确定的。在这种情况下,该策略不会返回唯一操作 a,而是返回一组操作的概率分布。

      一般来说,任何 RL 算法的目标都是学习实现特定目标的最优策略。

      【讨论】:

        【解决方案3】:

        这是一个简洁的答案:政策是代理人的“思考”。这是您处于某种状态时的映射s,代理现在应该采取哪个动作a?您可以将策略视为一个查找表:

        state----action----probability/'goodness' of taking the action
          1         1                     0.6
          1         2                     0.4
          2         1                     0.3
          2         2                     0.7
        

        如果您处于状态 1,您将(假设采用贪婪策略)选择操作 1。如果您处于状态 2,您将选择操作 2。

        【讨论】:

          猜你喜欢
          • 2019-12-05
          • 1970-01-01
          • 2019-04-17
          • 1970-01-01
          • 2017-05-29
          • 2011-02-13
          • 2018-11-05
          • 2016-10-24
          • 2019-10-25
          相关资源
          最近更新 更多