强化学习入门

一、强化学习和机器学习的关系

机器学习主要分为3个方向：分类、回归、关联性分析。强化学习则是机器学习的重要分支之一。机器学习的十大算法为：决策树、支持向量机SVM、随机森林算法、逻辑回归、朴素贝叶斯、KNN算法、K-means算法、AdaBoost算法、Apriori算法、PageRank算法。
在机器学习里，其范式主要分为监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）和强化学习。

区别

在传统的机器学习中，主流的学习方法都是所谓的“有监督学习”（supervised learning），不管是模式识别，神经网络训练等等，你的分类器并不会去主动评价（evaluate）你通过获得的每个样本（sample）所进行的训练结果（反馈），也不存在主动选择动作（action）的选项（比如，可以选择在采集了一些样本之后去采集哪些特定的样本）。意思就是，在这些传统的机器学习方法中（实际上也包括其它无监督学习或者半监督学习的很多方法），你并不会动态的去根据收集到的已有的样本去调整你的训练模型，你的训练模型只是单纯被动地获得样本并被教育。
强化学习主要针对的是在一个可能不断演化的环境中，训练一个能主动选择自己的动作，并根据动作所返回的不同类型的反馈（feedback），动态调整自己接下来的动作，以达到在一个比较长期的时间段内平均获得的反馈质量。因此，在这个问题中，如何evaluate每次获得的反馈，并进行调整，就是RL的核心问题
一个训练周期有很多episode，一个episode又由很多步（step）组成

2.强化学习概念

强化学习主要关注智能体如何在环境中采取不同的行动，以最大限度地提高累积奖励。
强化学习主要由智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、奖励（Reward）组成。智能体执行了某个动作后，环境将会转换到一个新的状态。对于该新的状态，环境会给出奖励信号（正奖励或者负奖励）。随后，智能体根据新的状态和环境反馈的奖励，按照一定的策略执行新的动作。
智能体：强化学习的本体，作为学习者或者决策者。
环境：强化学习智能体以外的一切，主要由状态集组成。
状态：表示环境的数据。状态集是环境中所有可能的状态。
动作：智能体可以做出的动作。动作集是智能体可以做出的所有动作。
奖励：智能体在执行一个动作后，获得的正/负奖励信号。奖励集是智能体可以获得的所有反馈信息，正/负奖励信号亦可称作正/负反馈信号。
策略：强化学习是从环境状态到动作的映射学习，该映射关系称为策略。通俗地说，智能体选择动作的思考过程即为策略。
-目标：智能体自动寻找在连续时间序列里的最优策略，而最优策略通常指最大化长期累积奖励。

经典的强化学习算法，多用于处理Exploitation（利用）-Exploration（探索）（EE）权衡（trade-off）困境，即一个最优选择问题。

强化学习的发展主线：

试错法
求解最优控制问题
基于时间差分法求解

3.其他

深度学习的一般方法与传统机器学习中监督学习的一般方法相比，少了特征工程，从而大大降低了业务领域门槛与人力成本。
强化学习可以利用较少的训练信息，让系统不断地自主学习，使得系统自我补充更多的信息，进而免受监督者的限制
另外，可以使用近年提出的迁移学习减少标注数据的数量：迁移学习（Transfer Learning）是把已经训练好的模型参数迁移到新的模型以帮助训练新模型。考虑到大部分数据或任务存在相关性，通过迁移学习可以将已经学到的模型参数（也可理解为模型学到的知识）通过某种方式分享给新模型，进而使得新模型不需要从零开始进行学习，加快并优化新模型的学习效率。

4.入门术语

一个训练周期有很多episode，一个episode又由很多步（step）组成
动作空间（action space，即可以选择的动作）
状态空间（state space）
IID（独立同分布）
样本复杂度（Sample complexity）：研究有哪些事情任何bandit算法都是不能做到的
regret （两个回报之间的差距）
用于评价一个算法的好坏，即regret(R(t))尽可能小（以很大的概率小/E(R(t))小）。
1）一般来说，我们设计算法的目标就是让期望的regret（一般研究的是regret的upper bound）比较小。
2）对样本复杂度（Sample complexity）而言，说的则是相反的一件事情，即无论什么算法，对MAB问题，你期望的regret都至少应该有多大（给的是lower bound）
reward回报
评价任何一个bandit算法的好坏用的是regret（回报最大），最好的arm即有最大的回报reward。