第一章统计学习及监督学习概论（二）

1.2 统计学习的分类

1.2.1 基本分类

统计学习一般包括监督学习、无监督学习和强化学习，有时还包括半监督学习、主动学习。

1.监督学习

监督学习（supervised learning）是指从标注数据中学习预测模型的机器学习问题。其本质是学习输入输出的映射统计规律。
（1）输入空间、特征空间和输出空间
输入与输出所有可能取值的集合分别称为输入空间和输出空间。输入和输出空间的大小可以有限也可是无限集，当然其可以是同一空间也可以是不同空间。一般情况下输出空间远远小于输入空间。
每个具体的输入实例，通常由一个特征向量表示，所有特征向量存在的空间称为特征空间。模型实际上都是定义在特征空间上的。
在监督学习中将输入与输出看作是定义在输入空间与输出空间上的随机变量的取值。习惯上输入输出变量用大写字母表示，输入输出变量的取值用小写字母表示，一般X表示输入变量，x表示输入变量取值，Y/y表示输出。
例如x的特征向量表示为：
x = (x⁽¹⁾,x⁽²⁾,…,x⁽ⁱ⁾,…,x⁽ⁿ⁾);[(i)表示x的第i个特征,而x_i，表示第i个变量]
监督学习从训练数据集合中学习模型，对测试数据进行预测，训练数据由输入输出对（又称样本或样本点）组成，通常表示为：
T = {(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}
当然，测试数据集也是由输入输出对组成。
（2）联合概率分布
监督学习假设输入输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数。训练数据和测试数据看作是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律，X和Y具有联合概率分布就是监督学习关于数据的基本假设。
（3）假设空间
模型属于有输入空间到输出空间的映射集合，这个集合就是假设空间。假设空间的确定意味着学习范围的确定。监督学习的模型可以是概率模型或非概率模型，

概率模型：由条件概率分布P(X|Y)表示
非概率模型：由决策函数Y = f(X)表示

（4）问题的形式化
第一章统计学习及监督学习概论（二）
学习系统通过训练集，学习得到一个模型，表示为条件概率模型 $\widehat{P} (y|x)$ 或决策函数Y = $\widehat{f} (x)$ ；则预测系统对于给定的测试集中的输入x_N+1，由模型y_N+1 = argmax $\widehat{P}$ (y|x_N+1)或y_N+1 = $\widehat{f}$ (x_N+1)

2.无监督学习

无监督学习（non-supervised learning）是指从无标注数据中学习学习预测模型的机器学习问题。无标注数据是自然得到的数据，预测模型表示数据的类别、转换或概率。其本质是学习数据中的统计规律或潜在结构。
输入输出空间及特征空间与监督学习的概念一致，但是无监督学习中每一个输出是对输入的分析结果，有输入的类别、转换和概率表示。模型可以实现对数据的聚类、降维或概率估计。
学习模型可表示为z = g(x)或P(z|x)或P(x|z),x $\in$ $\chi$ ，z $\in$ $\zeta$ ， $\chi$ 是输入空间， $\zeta$ 是隐式结构空间。无监督学习旨在从假设空间中选出在给定评价标准下的最优模型。
无监督学习通常使用大量的无标注数据集进行学习或训练，表示为U = {x₁,x₂,…,x_N}
无监督学习可以对已有数据进行分析也可以对未来数据进行分析，得到模型，即函数z = $\widehat{g}(x)$ ，或条件概率分布 $\widehat{P} (z|x)$ / $\widehat{P} (x|z)$ ，预测时，与监督学习类似，学习系统与预测系统流程如图:
第一章统计学习及监督学习概论（二）

3.强化学习

强化学习（reinforcement learning）是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。其本质是学习最优的序贯决策。
智能系统与环境的互动。在每一步t，智能系统从环境中观测到一个状态(state) $s_t$ ，与一个奖励(reward) $r_t$ ，采取一个动作（action） $a_t$ 决定下一步t+1的状态 $s_{t+1}$ 与奖励 $r_{t+1}$ 。强化学习过程中，系统不断的试错，以达到学习最优策略的目的。流程如图：
第一章统计学习及监督学习概论（二）

4.半监督学习和主动学习

半监督学习（semi-supervised learning）是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常标注数据少量，而未标注数据大量。主动学习（active learning）是指不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据，往往是随机得到的，可以看作“被动学习”，

1.2.2 按模型分类

1.概率和非概率模型

统计学习的模型可分为概率模型（probabilistic model）和非概率模型（non-probabilistic model）或确定性模型（deterministic model）。概率模型包括：决策树、朴素贝叶斯、隐马尔科夫模型、条件随机场、概率潜在语义分析、潜在狄立克雷分配、和高斯混合模型；非概率模型包括：感知机、支持向量机、k近邻、AdaBoost、k均值和神经网络。而logic回归即可看作概率模型也可看作非概率模型。
监督学习

概率模型是生成模型，取条件概率分布形式 $P (y|x)$ ；
非概率模型是判别模型，取函数形式 $y=f (x)$ [x是输入，y是输出]。
无监督学习
概率模型取条件概率分布形式 $P (z|x)$ 或 $P (x|z)$ ；
非概率模型取函数形式 $z=g (x)$ [x是输入，z是输出]；

条件概率分布和函数是可以相互转化的，具体的条件概率分布最大化后得到函数，函数归一化后得到条件概率分布。因此概率与非概率模型之间的区别不在于输入输出之间的映射而在于内在结构。且概率模型一定可以可以表示为联合概率分布的形式，而非概率模型不一定。
无论模型如何复杂，均可以用最基本的加法规则（ $P(x)= \sum_zP(x,y)$ ）和乘法规则（ $P(x,y)=P(x)P(y|x)$ ）进行概率推理。

2.线性与非线性模型

统计学习模型，特别是非概率模型，可以分为线性（linear model）和非线性模型（non-linear model）。如果函数 $y=f(x)$ 或 $z=g(x)$ 是线性函数，则称模型为线性模型（包括：感知机、线性支持向量机、k近邻、k均值和潜在语义分析等），否则称为非线性模型（包括：核函数支持向量机、AsaBoost和神经网络）。

3.参数化和非参数化模型

参数化模型（parametric model）假设模型参数的维度固定，模型可以由有限维度参数完全刻画，包括感知机、朴素贝叶斯、逻辑斯谛回归、k均值和高斯混合模型等；非参数模型（non-parametric model）假设模型参数的维度不固定或者说无穷大，随着训练数据量的增加而不断增大，包括决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析和潜在狄立克雷分配等。
参数化模型适合比较简单的情况，而现实问题往往比较复杂，则非参数化模型更加有效

1.2.3 按算法分类

按算法，统计学习可以分为在线学习（online learning）与批量学习（batch learning）。在线学习是指每次接受一个样本，进行预测，之后学习模型，并不断重复该操作的机器学习，其可以是监督也可是无监督学习，而强化学习本身具有在线学习的特点；批量学习是指一次接受所有数据，学习模型，之后进行预测。
在线学习往往比批量学习更难，很难学到预测准确率更高的模型，因为每次模型更新中可利用的数据有限。在线学习流程如图：
第一章统计学习及监督学习概论（二）
其中 $x_t$ 为一个样本输入， $y_t$ 为对应的输出， $\widehat{f}(x)$ 为已有模型给出的预测， $l$ 为之后得到相应反馈。

1.2.4 按技巧分类

1. 贝叶斯学习

贝叶斯学习(Bayesian learning)，又称贝叶斯推理，主要思想是在概率模型的学习和推理中，利用贝叶斯定理，计算给定数据条件下模型的条件概率，即后验概率，并用这个原理进行模型的估计，以及对数据的预测。包括：朴素贝叶斯和潜在狄立克雷分配的学习。该学习中也使用基本的概率公式（1.2.2中的加法和乘法规则）。
贝叶斯定理公式为:
$P( \theta|D )=\frac{ P( \theta )P( D|\theta ) }{P( D )}$
$P( \theta|D )$ 为后先概率， $P( \theta )$ 为先验概率， $P( D|\theta )$ 为似然函数。
模型估计时，估计整个后验概率 $P( \theta|D )$ ，如果需要给出一个模型，通常取后验概率最大的模型。
预测时，计算数据队后验概率分布的期望值：
$P( x|D )=\int P( x|\theta,D )P( \theta|D )d\theta$ ，其中x是新样本。

2.核方法

核方法（kernel method）是使用核函数表示和学习非线性模型的一种机器学习方法，可以用于监督和无监督学习，可以将一些线性模型的学习方法扩展到非线性模型的学习，使其应用更加广泛。包括：核函数支持向量机、核PCA和核k均值等。
将线性模型扩展到非线性模型，直接的做法是显式地定义从输入空间（低维空间）到特征空间（高维空间）的映射，在特征空间中进行内积计算。
第一章统计学习及监督学习概论（二）
持续更新中……