强化学习的策略是什么？ [关闭]答案

【问题标题】：What is a policy in reinforcement learning? [closed]强化学习的策略是什么？ [关闭]
【发布时间】：2018-02-25 21:32:40
【问题描述】：

我见过这样的词：

策略定义了学习代理在给定时间的行为方式。大致也就是说，政策是从感知的环境状态到在这些状态下要采取的行动的映射。

但还是没完全明白。强化学习中的策略到底是什么？

【问题讨论】：

标签： machine-learning terminology reinforcement-learning markov-decision-process

【解决方案1】：

这个定义是正确的，但如果你第一次看到它，它就不是很明显。让我这样说吧：策略是代理的策略。

例如，想象一个机器人在房间内移动的世界，其任务是到达目标点 (x, y)，并在那里获得奖励。这里：

房间是一个环境
机器人的当前位置是一个状态
策略是代理为完成此任务所做的：
- 愚蠢的机器人只是随意四处游荡，直到它们意外地落到正确的地方（策略 #1）
- 由于某些原因，其他人可能会在大部分路线中学会沿墙行走（策略 #2）
- 智能机器人在“头脑”中规划路线并直奔目标（策略 #3）

显然，有些策略比其他策略更好，并且有多种方法可以评估它们，即状态-价值函数和动作-价值函数。 RL 的目标是学习最佳策略。现在定义应该更有意义了（注意在上下文中时间被更好地理解为一种状态）：

策略定义了学习代理在给定时间的行为方式。

正式

更正式地说，我们应该首先将马尔可夫决策过程（MDP）定义为一个元组（S、A、P、R、y），其中：

S 是一组有限状态
A 是一组有限的操作
P 是一个状态转移概率矩阵（每个当前状态和每个动作最终进入某个状态的概率）
R 是一个奖励函数，给定一个状态和一个动作
y 是折扣因子，介于 0 和 1 之间

然后，策略π 是给定状态下动作的概率分布。这是代理处于特定状态时每个动作的可能性（当然，我在这里跳过了很多细节）。此定义对应于您定义的第二部分。

我强烈推荐 YouTube 上的 David Silver's RL course。前两讲特别关注 MDP 和政策。

【讨论】：

【解决方案2】：

简单来说，在最简单的情况下，策略π 是一个函数，它以状态s 作为输入并返回一个动作a。即：π(s) → a

通过这种方式，代理通常使用策略来决定当它处于给定状态s 时应该执行什么操作a。

有时，策略可以是随机的，而不是确定的。在这种情况下，该策略不会返回唯一操作 a，而是返回一组操作的概率分布。

一般来说，任何 RL 算法的目标都是学习实现特定目标的最优策略。

【讨论】：

【解决方案3】：

这是一个简洁的答案：政策是代理人的“思考”。这是您处于某种状态时的映射s，代理现在应该采取哪个动作a？您可以将策略视为一个查找表：

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7

如果您处于状态 1，您将（假设采用贪婪策略）选择操作 1。如果您处于状态 2，您将选择操作 2。

【讨论】：