一、强化学习和机器学习的关系
机器学习主要分为3个方向:分类、回归、关联性分析。强化学习则是机器学习的重要分支之一。机器学习的十大算法为:决策树、支持向量机SVM、随机森林算法、逻辑回归、朴素贝叶斯、KNN算法、K-means算法、AdaBoost算法、Apriori算法、PageRank算法。
在机器学习里,其范式主要分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习。
区别
- 在传统的机器学习中,主流的学习方法都是所谓的“有监督学习”(supervised learning),不管是模式识别,神经网络训练等等,你的分类器并不会去主动评价(evaluate)你通过获得的每个样本(sample)所进行的训练结果(反馈),也不存在主动选择动作(action)的选项(比如,可以选择在采集了一些样本之后去采集哪些特定的样本)。意思就是,在这些传统的机器学习方法中(实际上也包括其它无监督学习或者半监督学习的很多方法),你并不会动态的去根据收集到的已有的样本去调整你的训练模型,你的训练模型只是单纯被动地获得样本并被教育。
- 强化学习主要针对的是在一个可能不断演化的环境中,训练一个能主动选择自己的动作,并根据动作所返回的不同类型的反馈(feedback),动态调整自己接下来的动作,以达到在一个比较长期的时间段内平均获得的反馈质量。因此,在这个问题中,如何evaluate每次获得的反馈,并进行调整,就是RL的核心问题
- 一个训练周期有很多episode,一个episode又由很多步(step)组成
2.强化学习概念
- 强化学习主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。
- 强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态。对于该新的状态,环境会给出奖励信号(正奖励或者负奖励)。随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。
- 智能体:强化学习的本体,作为学习者或者决策者。
- 环境:强化学习智能体以外的一切,主要由状态集组成。
- 状态:表示环境的数据。状态集是环境中所有可能的状态。
- 动作:智能体可以做出的动作。动作集是智能体可以做出的所有动作。
- 奖励:智能体在执行一个动作后,获得的正/负奖励信号。奖励集是智能体可以获得的所有反馈信息,正/负奖励信号亦可称作正/负反馈信号。
策略:强化学习是从环境状态到动作的映射学习,该映射关系称为策略。通俗地说,智能体选择动作的思考过程即为策略。
-目标:智能体自动寻找在连续时间序列里的最优策略,而最优策略通常指最大化长期累积奖励。
经典的强化学习算法,多用于处理Exploitation(利用)-Exploration(探索)(EE)权衡(trade-off)困境,即一个最优选择问题。
强化学习的发展主线:
- 试错法
- 求解最优控制问题
- 基于时间差分法求解
3.其他
- 深度学习的一般方法与传统机器学习中监督学习的一般方法相比,少了特征工程,从而大大降低了业务领域门槛与人力成本。
- 强化学习可以利用较少的训练信息,让系统不断地自主学习,使得系统自我补充更多的信息,进而免受监督者的限制
- 另外,可以使用近年提出的迁移学习减少标注数据的数量:迁移学习(Transfer Learning)是把已经训练好的模型参数迁移到新的模型以帮助训练新模型。考虑到大部分数据或任务存在相关性,通过迁移学习可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式分享给新模型,进而使得新模型不需要从零开始进行学习,加快并优化新模型的学习效率。
4.入门术语
- 一个训练周期有很多episode,一个episode又由很多步(step)组成
- 动作空间(action space,即可以选择的动作)
- 状态空间(state space)
- IID(独立同分布)
- 样本复杂度(Sample complexity):研究有哪些事情任何bandit算法都是不能做到的
-
regret (两个回报之间的差距)
用于评价一个算法的好坏,即regret(R(t))尽可能小(以很大的概率小/E(R(t))小)。
1)一般来说,我们设计算法的目标就是让期望的regret(一般研究的是regret的upper bound)比较小。
2)对样本复杂度(Sample complexity)而言,说的则是相反的一件事情,即无论什么算法,对MAB问题,你期望的regret都至少应该有多大(给的是lower bound) -
reward回报
评价任何一个bandit算法的好坏用的是regret(回报最大),最好的arm即有最大的回报reward。