【问题标题】:Why is RL called 'reinforcement' learning?为什么 RL 被称为“强化”学习?
【发布时间】:2018-11-06 12:42:53
【问题描述】:

我了解机器学习为何如此命名,以及监督和非监督学习背后的命名法。那么强化学习的强化是什么?

【问题讨论】:

    标签: machine-learning deep-learning reinforcement-learning


    【解决方案1】:

    强化学习中的“强化”指的是如何鼓励某些行为,而阻止其他行为。通过环境经验获得的奖励来强化行为。

    【讨论】:

      【解决方案2】:

      强化学习通过反复试验得到强化。不正确(或不是最佳)的结果不需要手动纠正。相反,重点是探索,并从这些相同的经验中获得反馈(强化)。

      【讨论】:

        【解决方案3】:

        现代强化学习建立在两个主线之上。一个主题涉及通过反复试验进行学习,起源于动物学习心理学。第二个线程涉及最优控制问题,它是使用价值函数和动态规划的解决方案(Sutton and Barto., 2018)。 强化学习从第一个研究线索中借用了他的名字。根据 Watkins (1989) 的说法,在研究动物的学习能力时,可能会自动为动物提供强化剂。例如,在行为方面,正强化物可能是给饥饿的动物吃的一小口食物,或者是给口渴的动物喝的水。相反,负强化物可能是电击。

        附言。 Watkins 提出了 Q-learning 算法。

        编辑:(添加更多历史记录)

        根据 Sutton 和 Barto(2018 年):“在动物学习的背景下,“强化”一词在桑代克表达效果法则之后很好地开始使用,首次出现在这种情况下(据我们所知)在 1927 年巴甫洛夫关于条件反射的专着的英文翻译中。巴甫洛夫将强化描述为加强一种行为模式 以与另一种刺激或反应具有适当时间关系的动物接受刺激(一种强化物)。”

        萨顿、理查德 S. 和安德鲁 G. 巴托。强化学习:简介。麻省理工学院出版社,2018 年。
        Thorndike, E. L. 动物智能。康涅狄格州达里恩 (Darien) 哈夫纳 (Hafner),1911 年。
        沃特金斯,克里斯托弗·约翰·康沃尔·海拉比。 “从延迟奖励中学习。” (1989 年)。

        【讨论】:

          猜你喜欢
          • 2020-11-06
          • 2018-11-02
          • 2019-10-20
          • 2018-11-05
          • 2016-10-24
          • 2022-07-10
          • 2017-05-29
          • 2021-05-14
          • 1970-01-01
          相关资源
          最近更新 更多