【发布时间】:2018-02-25 21:32:40
【问题描述】:
我见过这样的词:
策略定义了学习代理在给定时间的行为方式。大致 也就是说,政策是从感知的环境状态到在这些状态下要采取的行动的映射。
但还是没完全明白。强化学习中的策略到底是什么?
【问题讨论】:
标签: machine-learning terminology reinforcement-learning markov-decision-process
我见过这样的词:
策略定义了学习代理在给定时间的行为方式。大致 也就是说,政策是从感知的环境状态到在这些状态下要采取的行动的映射。
但还是没完全明白。强化学习中的策略到底是什么?
【问题讨论】:
标签: machine-learning terminology reinforcement-learning markov-decision-process
这个定义是正确的,但如果你第一次看到它,它就不是很明显。让我这样说吧:策略是代理的策略。
例如,想象一个机器人在房间内移动的世界,其任务是到达目标点 (x, y),并在那里获得奖励。这里:
策略是代理为完成此任务所做的:
显然,有些策略比其他策略更好,并且有多种方法可以评估它们,即状态-价值函数和动作-价值函数。 RL 的目标是学习最佳策略。现在定义应该更有意义了(注意在上下文中时间被更好地理解为一种状态):
策略定义了学习代理在给定时间的行为方式。
更正式地说,我们应该首先将马尔可夫决策过程(MDP)定义为一个元组(S、A、P、R、y),其中:
S 是一组有限状态A 是一组有限的操作P 是一个状态转移概率矩阵(每个当前状态和每个动作最终进入某个状态的概率)R 是一个奖励函数,给定一个状态和一个动作y 是折扣因子,介于 0 和 1 之间然后,策略π 是给定状态下动作的概率分布。这是代理处于特定状态时每个动作的可能性(当然,我在这里跳过了很多细节)。此定义对应于您定义的第二部分。
我强烈推荐 YouTube 上的 David Silver's RL course。前两讲特别关注 MDP 和政策。
【讨论】:
简单来说,在最简单的情况下,策略π 是一个函数,它以状态s 作为输入并返回一个动作a。即:π(s) → a
通过这种方式,代理通常使用策略来决定当它处于给定状态s 时应该执行什么操作a。
有时,策略可以是随机的,而不是确定的。在这种情况下,该策略不会返回唯一操作 a,而是返回一组操作的概率分布。
一般来说,任何 RL 算法的目标都是学习实现特定目标的最优策略。
【讨论】:
这是一个简洁的答案:政策是代理人的“思考”。这是您处于某种状态时的映射s,代理现在应该采取哪个动作a?您可以将策略视为一个查找表:
state----action----probability/'goodness' of taking the action
1 1 0.6
1 2 0.4
2 1 0.3
2 2 0.7
如果您处于状态 1,您将(假设采用贪婪策略)选择操作 1。如果您处于状态 2,您将选择操作 2。
【讨论】: