【问题标题】:Reinforcement Learning or Supervised Learning?强化学习还是监督学习?
【发布时间】:2019-04-16 21:06:28
【问题描述】:

如果强化学习 (RL) 算法在现实世界中工作之前需要在模拟环境中进行大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是强化学习?

【问题讨论】:

    标签: reinforcement-learning supervised-learning


    【解决方案1】:

    原因是因为这两个领域有着根本的区别:

    一个尝试复制以前的结果,另一个尝试比以前的结果更好。

    机器学习有4个领域:

    • 监督学习
    • 无监督学习
    • 半监督学习
    • 强化学习

    让我们谈谈您要求的两个领域,让我们通过一个真实的射箭示例来直观地探索它们。

    监督学习

    对于监督学习,我们会观察一位射手大师的动作可能一周,并记录他们将弓弦拉回多远、射门角度等。然后我们回家建立一个模型。在最理想的场景中,我们的模型变得与主射手一样好。它无法变得更好,因为监督学习中的损失函数通常是 MSE 或交叉熵,所以我们只是尝试复制特征标签映射。构建模型后,我们将其部署。让我们说我们特别花哨,让它在线学习。所以我们不断地从射手大师那里获取数据,并继续学习与射手大师完全一样。

    最大的收获:

    我们试图复制大师级弓箭手仅仅是因为我们认为他是最好的。所以我们永远打不过他。

    强化学习

    在强化学习中,我们只是简单地建立一个模型并让它尝试许多不同的事情。我们根据箭离靶心的距离给予奖励/惩罚。 我们不试图复制任何行为,而是试图找到我们自己的最佳行为。因此,我们不会对我们认为的最佳射击策略有任何偏见。

    由于 RL 没有任何先验知识,RL 可能难以收敛于难题。因此,有一种方法叫做学徒学习/模仿学习,我们基本上给 RL 一些射手大师的轨迹,这样它就可以有一个起点并开始收敛。但在那之后,强化学习会探索,有时会采取随机行动来尝试找到其他最佳解决方案。 这是有监督学习无法做到的。因为如果你使用监督学习进行探索,你基本上是在说在这种状态下采取这个行动是最优的。然后你尝试让你的模型复制它。但这种情况在监督学习中是错误的,应该被视为数据中的异常值。

    监督学习与强化学习的主要区别:

    • 监督学习复制已经完成的工作
    • 强化学习可以探索状态空间,并执行随机动作。这样一来,RL 就有可能比目前的最佳水平更好。

    为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是 RL

    我们为 Deep RL 这样做是因为它有一个经验回放缓冲区。但这对于监督学习是不可能的,因为缺少奖励的概念。

    示例:在迷宫中行走。

    强化学习

    在方格 3 中右转:奖励 = 5

    在第 3 格左转:奖励 = 0

    在第 3 格中占据一席之地:奖励 = -5

    监督学习

    在第 3 格右转

    在第 3 格左转

    在第 3 个方格中占据一席之地

    当您尝试在第 3 步中做出决定时,RL 会知道正确。监督学习会被混淆,因为在一个例子中,你的数据在第 3 格中说向右走,第二个例子说向左走,第三个例子说向上。所以它永远不会收敛。

    【讨论】:

      【解决方案2】:

      简而言之,监督学习是被动学习,即在您开始训练模型之前收集所有数据。

      但是,强化学习是主动学习。在 RL 中,通常一开始您没有太多数据,并且在训练模型时会收集新数据。您的 RL 算法和模型决定了您可以在训练时收集哪些特定数据样本。

      【讨论】:

      • 监督学习可以使用“批量”学习,其中模型必须一次在所有训练数据上训练,然后部署,或者“在线”学习,可以随着新的训练数据的到来而增量学习.例如,随着垃圾邮件发送者在绕过垃圾邮件过滤器方面做得更好,当电子邮件用户识别出任何通过的垃圾邮件时,使用“在线”学习训练的模型可以不断改进。
      【解决方案3】:

      监督学习中,我们有假设正确的目标标记数据。

      RL 中,情况并非如此,我们只有奖励。智能体需要通过与环境玩耍并观察其获得的奖励来确定要采取的行动。

      【讨论】:

        【解决方案4】:

        监督学习是关于将主管(训练数据)提供的知识概括用于未知领域(测试数据)。它基于指导性反馈,在给定情况(特征)的情况下,为代理提供正确的操作(标签)。

        强化学习是通过反复试验通过交互学习。没有指导性反馈,只有评估性反馈,通过告知所采取的行动有多好而不是说出要采取的正确行动来评估代理所采取的行动。

        【讨论】:

        【解决方案5】:

        强化学习是机器学习的一个领域。它是关于在特定情况下采取适当的行动来最大化奖励。它被各种软件和机器用来寻找在特定情况下应该采取的最佳行为或路径。强化学习与监督学习的不同之处在于,在监督学习中,训练数据具有答案键,因此模型本身就使用正确答案进行训练,而在强化学习中,没有答案,但强化代理决定做什么执行给定的任务。在没有训练数据集的情况下,它必然会从经验中学习。

        【讨论】: