机器学习——有监督学习知识积累

线性回归

线性回归
 最小二乘法小结
 脊回归（Ridge Regression）
Lasso Regression
多重共线性的解决方法之——岭回归与LASSO

感知机

在《统计学习方法》中，定义的方式有一些不同，如下图所示

书中所提到了“不考虑 $\frac{1}{\|w\|}$ ”，实际意思是说不会影响解，
对于最小化问题 $-\frac {1} {\|w\|}\sum y_i(wx_i+b)$ 来说，如果我们添加一个条件 $\|w\|=1$ 后（注意，添加这个条件之后，并不会对原问题的意义进行改变，仍然是在找经验误差最小的分类面，但加入说要是假设分子为1，那这个优化问题的意义就改变了），优化问题变成了 $-\frac {1} {1}\sum y_i(wx_i+b)$ ，得到一组解 $w_1=[w_{11},w_{12}...],b_1$ ；然后把这个条件改成 $\|w\|=2$ 后，优化问题变成了 $-\frac {1} {2}\sum y_i(wx_i+b)$ ，得到了第二组解 $w_2=[w_{21},w_{22}...],b_2$ ，很容易能看出这两个优化问题是完全相同的，并且第一组解和第二组解的对应项的比例是相同的，比如 $\frac{w_{11}}{w_{21}}=\frac{w_{21}}{w_{22}}=\frac{b_{1}}{b_{2}}=\frac{1}{2}$ ，也就是说不仅两个优化问题的最终大小一样，所代表的的分类面也一样
进而能说明的是，即使不对 $w$ 进行约束，无论 $w$ 在优化过程中会怎样变化，最终的解所代表的分类面也都是唯一的，反正最终的最优解中 $\|w\|$ 都是一个常数 $a$
另外刘建平的博客里有另一种解释方法，即把样本所处的n维特征空间扩充为n+1维，就是把那个常数1也当做特征的一个维度，样本就从 $x=[x_1,x_2,...]$ 变成了 $x=[1,x_1,x_2,...]$ ，并且参数空间也从n维扩充到了n+1维，参数就从 $w,b$ 变成了 $\theta=[b,w]$ ，于是点到新空间的分类面的距离就变成了 $\frac{\theta x}{\|\theta\|}$ ，所以无论 $\theta$ 是多大都不影响最终的解

支持向量机的核心：支持向量机的模型构建意义是找到一个分类超平面，能够把特征空间中的样本全部正确分类的同时，保证距离分类超平面最近的样本能够尽可能远离这个分类超平面，距离的评估用的是几何间隔，也就是高中数学中的点到平面距离，于是就有了如下优化问题（称这个优化问题为问题A），其中 $\hat{r}$ 就是距离分类超平面最近的样本距离分类平面的函数距离
$问题A:\max_{w,b} \frac{\hat{r}}{\|w\|},s.t.\ y_i(w^Tx_i+b)\ge\hat{r}$
并且同时，无论这个距离分类超平面最近的样本是样本集中的哪个点、位置在哪，都将这个点到达分类超平面的函数距离设置为1，于是原问题就变成了新的优化问题（称这个优化问题为问题B）
$问题B:\max_{w,b} \frac{1}{\|w\|},s.t.\ y_i(w^Tx_i+b)\ge1$
可以从如下两个角度来理解：第一，函数间隔的大小收到点与分类面的相对位置和分类超平面的参数的两方面的影响，一旦支持向量确定，那么更改分类超平面的参数就会等比例的放大或者缩小函数间隔，而这个函数间隔的变化并不会让分类超平面变化。第二，设置距离分类超平面最近的样本到平面的函数间隔为1，其实类似于在设置单位，训练集一旦确定，分类面也一定是确定的
这里我想给出我自己的理解方法，在问题A的基础上人为添加一个条件 $\hat{r}=1$ ，得到如下优化问题，称之为问题C，很容易知道问题C的解可能不是问题A的解，但这两个问题代表的超平面一定是同一个超平面
$\begin{aligned}问题C:&\max_{w,b} \frac{\hat{r}}{\|w\|}\\ s.t.&\ y_i(w^Tx_i+b)\ge\hat{r}\\ &\hat{r}=1 \end{aligned}$
如果我们现在解开了问题A，得到的解 $w_A^*,b_A^*$ ，这个解代表了SVM的分类超平面，但这个解并不一定是问题C的解，但如果对 $w_A^*,b_A^*$ 进行等比例的放大或者缩小得到 $w_C^*,b_C^*$ 使得 $\hat{r}=1$ 成立，那么这个 $w_C^*,b_C^*$ 就是问题C的解，但注意， $w_A^*,b_A^*$ 与 $w_C^*,b_C^*$ 代表的平面是同一个平面
同样地，如果我们现在解开了问题B，得到的解 $w_B^*,b_B^*$ ，这个解也代表了SVM的分类超平面，但这个解并不一定是问题C的解，但如果对 $w_B^*,b_B^*$ 进行等比例的放大或者缩小得到 $w_C^*,b_C^*$ 使得 $\hat{r}=1$ 成立，那么这个 $w_C^*,b_C^*$ 就是问题C的解，但注意， $w_B^*,b_B^*$ 与 $w_C^*,b_C^*$ 代表的平面是同一个平面
所以仅仅从分类面的同一性角度来说， $w_B^*,b_B^*$ 与 $w_A^*,b_A^*$ 是同一个分类面，问题A与问题B也就等价了，解的具体是多大就无所谓了
文中有下式

之所以 $b^*$ 是这个，是因为那两个max和min对应的是分类面两边的支持向量，而且分类面肯定过这两个支持向量的中点
至于为什么非支持向量样本对应的的 $\alpha_i=0$ ，是因为首先非支持向量不是距离分类面最近的点，所以满足 $y_i(w^Tx_i+b)\gt1$ ，又因为解要满足KKT条件，即 $\alpha_iy_i(w^Tx_i+b)=0$ ，所以有如上结论
核函数存在的意义：原本的思路是将低维空间 $x\in R^d$ 通过函数 $\phi$ 映射到高维空间 $\phi(x)\in R^{d+m}$ ，把原本线性不可分的数据变成高维空间的线性可分数据，然后在高维空间求解如下问题，从而计算分类面参数去做SVM
$\max_{w,b} \frac{1}{\|w\|},s.t.\ y_i(w^T\phi(x)+b)\ge1且w\in R^{d+m}$
这有着维度爆炸的问题，那么核函数的出现告诉我们没有必要先映射后在高维空间求解，在低维空间同样可以完成这个事情，为什么呢？因为求解SVM的对偶问题的时候，我们需要的仅仅是训练集中任意两个样本的内积而已，要做的就仅仅是在求解对偶问题的时候，把两个向量的内积变成高维空间下的内积就可以了
SMO算法关于 $\alpha$ 不同取值对应意义的解释

首先回顾一下原问题

其拉格朗日方程为

由于KKT条件，因此有 $r_i\xi_i=0,i=1,...,n$ ，而又因为 $\frac{\partial L}{\partial \xi}=0$ ，因此有 $C-\alpha_i-r_i=0$ ，因此如果 $r_i=0$ ，则 $\alpha_i=C$ 且 $\xi_i$ 可以取大于0的值，这就表明了 $x_i$ 这个点是需要松弛的点；而如果 $r_i\ne0$ ，则有 $0\le\alpha_i<C$ 且 $\xi_i=0$ ，而 $\xi_i=0$ 对应的就是 $x_i$ 不需要松弛，那么 $\alpha_i=0$ 和 $\alpha_i>0$ 分别对应了不是支持向量与是落在距离分类平面函数距离为1的区域的支持向量（有可能不存在）。在线性不可分的情况里，只要 $\alpha_i>0$ 就是支持向量

支持向量机(SVM)的特点与不足

多核学习

从 SVM 到多核学习 MKL
特征提取-特征后期融合-多核学习方法（MKL）

贝叶斯方法

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
朴素贝叶斯算法原理小结

补充：后验概率最大化

解释一下，机器学习的目的就是“在假设空间找到一个模型，使得期望风险函数最低”，而期望风险指的是每次预测的损失的期望（期望是一个随机变量的平均值）也就是说，我们要找的是让 $R_{exp}$ 最小的模型，根据全期望公式有 $R_{exp}(f)=E[L(Y,f(X))]=E[E[L|X]]$ ，那么一种方法就是，无论输入的 $X=x$ 是什么， $E[L|X=x]$ 都是最小的，也就有了图中所说的“逐个极小化”
而 $E[L|X=x]=\sum_{k=1}^K[L(c_k,f(X=x)]P(c_k|X=x)$ ，讲的是当样本输入给定为 $x$ 的时候，预测损失的期望，因为这个样本可能属于不同的类，因此当样本属于不同类的时候，损失这个随机变量的取值也有差异，所以这个期望就等于当预测为 $f(X=x)$ 而样本属于 $c_k$ 时候的损失（就是 $L(c_k,f(X=x)$ ）乘以损失为这么大的概率，也就是这个样本 $X=x$ 属于 $c_k$ 这一类的概率（就是 $P(c_k|X=x)$ ，暂且假设这个后验概率分布是已知的）再求和，相当于在对 $Y$ 求积分
什么时候能让 $E[L|X=x]$ 最小，先假设 $f(X=x)=y=c_j$ ，由于 $L$ 为0-1损失，那么对于 $X=x$ 这个样本来说，它的损失的期望就等于 $E[L|X=x]=1-P(c_{j}|X=x)$ ，也就是说 $P(c_{j}|X=x)=P(y|X=x)$ 越大损失越小，如果在当前输入 $X=x$ 下， $P(c_{j}|X=x)=max\{P(c_1|X=x),P(c_2|X=x),...,P(c_k|X=x)\}$ 的时候， $E[L|X=x]$ 有最小值，也就是说在当前输入的 $X=x$ 下，模型输出的是后验概率最大的那个类（即图中最后一个公式），就能保证对于每个输入 $X=x$ 来说， $E[L|X=x]$ 都是最小的，进而保证了 $R_{exp}(f)$ 是最小的
而之前我们假设的是 $P(c_k|X=x)$ 已知，而此时这个概率分布是未知的，而朴素贝叶斯的训练过程就是用来学习这个概率分布的

说来生气，之前和组里的老师和同学讨论这个问题的时候，我说这个值是极大似然估计出来的，他们说极大什么极大，这不就明摆着的么，呵呵= =
这个式子实在太通俗易懂了，所以没人追究他是怎么来的，这个式子讲的是：我们一共有 $N$ 个样本，其中 $c_k$ 类的样本有 $a$ 个，那么随机采样出现 $c_k$ 的概率就是 $\frac{a}{N}$
设从样本集中随机采样一个样本是 $c_k$ 类的概率为 $\theta$ ，设采样 $N$ 次结果中出现了 $a$ 个 $c_k$ 类的事件为 $A$ ，那么似然函数为 $L(\theta)=P(A|\theta)=C_N^a\theta^a(1-\theta)^{N-a}$ 于是对似然函数求导为 $\frac{\partial L}{\partial \theta}=C_N^a\theta^{a-1}(1-\theta)^{N-a-1}[a(1-\theta)-(N-a)\theta]$ ，等于0时，刚好有 $\theta=\frac{a}{N}$

从贝叶斯方法谈到贝叶斯网络
 概率图模型之：贝叶斯网络
 超细致的贝叶斯决策论
 从决策树学习谈到贝叶斯分类算法、EM、HMM

决策树

决策树算法原理(上)

为什么信息增益倾向于选择多的特征，直观来讲，选特征数目多的，输出的叶子节点会更纯，可以让每个叶子节点更纯
假设数据中的每个人都是一个样本，每个人的姓名都不同，那么信息增益就会选择姓名作为最佳属性，因为按姓名分裂后，每个叶子节点只包含一条记录，而每个叶子只属于一类（信息增益最大），因此纯度最高。但是这样的分类没有意义。
举个实际数据例子，假如一个两类问题之中，总样本数目为4，其中正样本数目为2，负样本数目为2，并且该样本有 $a,b$ 两个特征，其中特征 $a$ 的取值可以是 $a_1,a_2$ ，总样本之中，特征 $a,b$ 当取不同值的，样本分布情况如下表，如：特征 $a$ 取值为 $a_1$ 的样本数目为2，其中正负样本数目均为1。
可以算出总样本的熵 $H(D)=-\frac{1}{2}*log\frac{1}{2}-\frac{1}{2}*log\frac{1}{2}$
当特征选a的时候， $H(D|a)=-\frac{2}{4}(\frac{1}{2}*log\frac{1}{2}+\frac{1}{2}*log\frac{1}{2})-\frac{2}{4}(\frac{1}{2}*log\frac{1}{2}+\frac{1}{2}*log\frac{1}{2})$
当特征选b的时候， $H(D|b)=-\frac{1}{1}*log\frac{1}{1}-\frac{1}{1}*log\frac{1}{1}-\frac{1}{1}*log\frac{1}{1}-\frac{1}{1}*log\frac{1}{1}$
所以 $[H(D)-H(D|b)]>[H(D)-H(D|a)]$ ，所以说倾向于选择特征取值更多的特征
但是注意，“倾向选择取值更多的特征”不一定就是坏事，因为熵和分类误差率的单调性完全一致，因此即使有着“倾向选择取值更多的特征”的性质，也不会使得一个不好的特征的信息增益比一个好的特征高；但仍不能否认，仅从数据的角度来看b特征就是比a特征好。甚至把问题再深入一点，假设下面表格中样本数目都乘以一百万，数据量足够大的时候b特征仍能保持一个特别好分类结果，那么也就证明了b特征就是一个很好的特征。

特征a取值	样本数目	正样本数目	负样本数目
$a_1$	2	1	1
$a_2$	2	1	1

特征b取值	样本数目	正样本数目	负样本数目
$b_1$	1	1	0
$b_2$	1	0	1
$b_3$	1	1	0
$b_4$	1	0	1

c4.5为什么使用信息增益比来选择特征？ - 夕小瑶的回答 - 知乎
 决策树算法原理(下)
scikit-learn决策树算法类库使用小结
 决策树系列（五）——CART

集成学习

集成学习原理小结
 Bagging和Boosting 概念及区别
 Bagging与随机森林算法原理小结
 [Machine Learning & Algorithm] 随机森林（Random Forest）
集成学习之Adaboost算法原理小结

统计学习方法中146页的解释

由8.4式可知，每一次迭代后每个样本权值变化公式为
$\begin{aligned} w_{m+1,i}&=\frac{w_{m,i}}{Z_m}exp(-\alpha_m y_i G_m(x_i))\\ &=\frac{w_{m-1,i}}{Z_{m-1}Z_m}exp(-\alpha_{m-1} y_{i} G_{m-1}(x_{i}))exp(-\alpha_m y_i G_m(x_i))\\ &=\frac{w_{1,i}}{\prod_{k=1}^m{Z_k}}exp(\sum_{k=1}^m-\alpha_{k} y_{i} G_{k}(x_{i}))\\ &=\frac{1}{N\prod_{k=1}^m{Z_k}}exp(\sum_{k=1}^m-\alpha_{k} y_{i} G_{k}(x_{i})) \end{aligned}$
并且 $f_{m-1}(x)=\sum_{k=1}^{m-1}\alpha_kG_k(x)$ ，所以有
$w_{m,i}=\frac{1}{N\prod_{k=1}^{m-1}{Z_k}}exp(-y_i f_{m-1}(x))=\frac{1}{N\prod_{k=1}^{m-1}{Z_k}}\bar{w}_{m,i}$
并且由于 $Z_k$ 对任意样本都相同，因此说 $G_m^*$ 就是AdaBoost算法之中第m轮输出的基本分类器

梯度提升树(GBDT)原理小结

GBDT相对于BDT（提升树）好在哪呢，为什么一定要用负梯度来拟合呢？
如果我们用的是平方损失，那么在训练新树的时候，就要针对 $L(y,f_{m-1}(x)+T(x;\theta_m))=[y-f_{m-1}(x)-T(x;\theta_m)]^2=[r-T(x;\theta_m)]^2$ 这时候新的树恰好需要拟合残差而已，但如果这个损失是个别的损失，那新树要去拟合的就不是残差了；而实际上可以把 $L$ 看做以 $f$ 为自变量的函数，于是对 $L$ 关于 $f$ 进行梯度下降得到 $\frac{\partial L}{\partial f}$ ，也就是说当自变量 $f$ 沿着负梯度方向的时候， $L$ 减小最快，那么在实际数据中要做的就是学习一个新模型，使得当输入为 $x$ 时输出值为 $\frac{\partial L}{\partial f}$ ，把这个模型加回给之前的模型，就完成了对 $L$ 的梯度下降工作
在GBDT回归的时候，每一个新的弱分类器的叶子节点个数可能都不一样，GBDT回归的核心之一在于每个叶子节点的值的选择
多元GBDT分类的每个 $f_k(x)$ 代表的是针对“是第k类样本”和“不是第k类样本”的分类模型

一步一步理解GB、GBDT、xgboost
xgboost原理及应用–转
 Complete Guide to Parameter Tuning in XGBoost (with codes in Python)

综合

感知机、线性回归、逻辑回归的简单对比

线性回归

感知机

最近邻

Logistics

Softmax

SVM

多核学习

贝叶斯方法

决策树

集成学习

综合