从线性到非线性模型-对数线性模型

从线性到非线性模型

1、线性回归，岭回归，Lasso回归，局部加权线性回归

2、logistic回归，softmax回归，最大熵模型

3、广义线性模型

4、Fisher线性判别和线性感知机

5、三层神经网络

6、支持向量机

code: https://github.com/myazi/myLearn

二、Logistic回归和SoftMax回归，最大熵模型

一、Logistic回归

分类问题可以看作是在回归函数上的一个分类。一般情况下定义二值函数，然而二值函数不易优化，一般采用sigmoid函数平滑拟合（当然也可以看作是一种软划分，概率划分）：从函数图像我们能看出，该函数有很好的特性，适合二分类问题。至于为何选择Sigmoid函数，后面可以从广义线性模型推导出Sigmoid函数。

逻辑回归可以看作是在线性回归的基础上构建的分类模型，理解的角度有多种，最直接的理解是考虑逻辑回归是将线性回归值离散化。即一个二分类问题如下：（二值函数）

KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…

sigmoid函数

$g(z)=\frac{1}{1+e^{-z}},g^{‘}(z)=g(z)(1-g(z))$
从线性到非线性模型-对数线性模型

二分类问题属于一种硬划分，即是与否的划分，而sigmoid函数则将这种硬划分软化，以一定的概率属于某一类（且属于两类的加和为1）。Sigmoid函数将线性回归值映射到 $[0,1]$ 区间，从函数图像我们能看出，该函数有很好的特性，适合二分类问题。因此逻辑回归模型如下：

KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
这里对于目标函数的构建不再是最小化函数值与真实值的平方误差了，按分类原则来讲最直接的损失因该是0-1损失，即分类正确没有损失，分类错误损失计数加1。但是0-1损失难以优化，存在弊端。结合sigmoid函数将硬划分转化为概率划分的特点，采用概率$h_{\theta}(x^{(i)}) $的对数损失（概率解释-N次伯努利分布加最大似然估计），其目标函数如下：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

同样采用梯度下降的方法有：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
又：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
所以有：
$\theta_{j}=\theta_{j}-\alpha \left(y^{(i)}-h_{\theta}(x^{(i)})\right)x$

概率解释

逻辑回归的概率解释同线性回归模型一致，只是假设不再是服从高斯分布，而是 $p\left ( y|x;\theta \right )$ 服从0-1分布，由于，假设随机变量y服从伯努利分布是合理的。即：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
所以最大化似然估计有：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

logistic采用对数损失原因

采用对数损失的原因有二：

1)从概率解释来看，多次伯努利分布是指数的形式。由于最大似然估计导出的结果是概率连乘，而概率（sigmoid函数）恒小于1，为了防止计算下溢，取对数将连乘转换成连加的形式，而且目标函数和对数函数具备单调性，取对数不会影响目标函数的优化值。

2）从对数损失目标函数来看，取对数之后在求导过程会大大简化计算量。

二、SoftMax回归

Softmax回归可以看作是Logistic回归在多分类上的一个推广。考虑二分类的另一种表示形式：

$\left [ k_{1},1-k_{1} \right ]\rightarrow \begin{bmatrix} k_{1}\\ k_{2} \end{bmatrix}$
当logistic回归采用二维表示的话，那么其损失函数如下：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
其中，在逻辑回归中两类分别为 $k_{1}$ ， $1-k_{1}$ ,二在softmax中采用 $k_{1}，$ $k_{2}$ 两个随机变量组成二维向量表示，当然隐含约束 $k_{1}+k_{2}=1$ .为了更好的表示多分类问题，将 $y\in \left \{ 1,2,..K \right \}$ （不一定理解为y的取值为k，更应该理解为y可以取k类）多分类问题进行如下表示。
$T(k)=\begin{bmatrix} 0\\ 0\\ .\\ 1\\ .\\ 0 \end{bmatrix}$
其中向量的第k位为1，其他位为0，也就是当 $y=k$ 时将其映射成向量时对应第k位为1。采用多维表示之后，那么对于每一维就变成了一个单独的二分类问题了，所以softmax函数形式如下：
$h_{\theta}(x^{(i)})=\frac{1}{\sum_{ k=1}^{K}exp\left ( \theta _{k}^{T}x^{(i)} \right )}\begin{bmatrix} exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ .\\ exp\left ( \theta _{k}^{T}x^{(i)} \right ) \end{bmatrix}$
其中函数值是一个 $K$ 维的向量，同样采用对数损失（多项式分布和最大似然估计），目标函数形式是logistic回归的多维形式。
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
其中 $y^{ik}$ 表示第 $i$ 个样本的标签向量化后第k维的取值0或者1.可以看出Softmax的损失是对每一类计算其概率的对数损失，而logistic回归是计算两类的回归，其本质是一样。Logistic回归和Softmax回归都是基于线性回归的分类模型，两者无本质区别，都是从二项分布和多项式分布结合最大对数似然估计。只是Logistic回归常用于二分类，而Softmax回归常用于多分类。而且Logistic回归在考虑多分类时只考虑n-1类。

概率解释

二分类与多分类可以看作是N次伯努利分布的二项分布到多项分布的一个推广，概率解释同Logistic回归一致。详细解释放到广义线性模型中。

二分类转多分类思想

对于多分类问题，同样可以借鉴二分类学习方法，在二分类学习基础上采用一些策略以实现多分类，基本思路是“拆解法”，假设N个类别 $C_{1},C_{2},.C_{i}.,C_{n}$ ，经典的拆分算法有“一对一”，“一对多”，“多对多”，

一对一的基本思想是从所有类别中选出两类来实现一个两分类学习器，即学习出 $C_{N}^{2}=N(N-1)/2$ 个二分类器，然后对新样本进行预测时，对这 $C_{N}^{2}$ 个分类器进行投票最终决定属于那一类。

一对多的基本思想是把所有类别进行二分类，即属于 $C_{i}$ 类和非 $C_{i}$ 两类，这样我们就需要N个分类器，然后对新样本进行预测时，与每一个分类器比较，最终决定属于哪一类。这其实就是Softmax的思想，也是SVM多分类的思想。

//多对多的基本思想是

三、最大熵模型

很奇怪，为什么会把最大熵模型放到这，原因很简单，它和Logistic回归和SoftMax回归实在是惊人的相似，同属于对数线性模型。

熵的概念

从线性到非线性模型-对数线性模型

信息熵：熵是一种对随机变量不确定性的度量，不确定性越大，熵越大。若随机变量退化成定值，熵为0。均匀分布是“最不确定”的分布。

假设离散随机变量X的概率分布为 $P(X)$ ，则其熵为：
$H(X)=-\sum_{x}P(x)logP(x)$
其中熵满足不等式 $0\leq H(P) \leq log|X|$ 。

联合熵：对于多个随机变量的不确定性可以用联合熵度量

假设离散随机变量 $X,Y$ 的联合概率分布为 $P(X,Y)$ ，则其熵为：
$H(X,Y)=-\sum_{x}\sum_{y}P(x,y)logP(x,y)$
条件熵：在给定条件下描述随机变量的不确定性

假设离散随机变量 $X,Y$ ，在给定 $Y$ 的条件下 $X$ 的不确定性为条件熵H(X|Y)，也就等于 $H(X,Y)-H(Y)$
$H(X|Y)=-\sum_{x,y}P(x,y)log(P(x|y))$
互信息：衡量两个随机变量相关性的大小 $I(X,Y)=H(X)+H(Y)-H(X,Y)$
$I(X,Y)=-\sum_{x,y}P(x,y)log\frac{P(x,y)}{P(x)P(y)}$
相对熵（KL散度）：衡量对于同一个随机变量两个概率分布 $p(x),q(x)$ 的差异性
$D(p||q)=\sum_{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)}$
有互信息和相对熵的定义有下式：
$I(X,Y)=D(P(X,Y)||P(X)P(Y))$
关于熵的介绍就到此，不细究，虽然上面的这些定义在机器学习中都会遇到，不过后面涉及到的主要还是熵和条件熵。

最大熵模型

最大熵原理是概率模型学习中的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型分布中（满足所有条件下），熵最大的模型是最好的模型。熵最大即为最均匀的分布，从某种角度讲均匀分布总是符合我们理解的损失风险最小，也就是“不要不所有的鸡蛋放到一个篮子里，均匀的放置”。

给定训练集 $T=\{ (x_{1},y_{1}),(x_{2},y_{2})..(x_{m},y_{m})\}$ ，假设 $X \in \chi \subseteq R^{n}$ 表示输入， $y\in \phi$ 表示输出，分类模型是一个以条件概率分布 $P(Y|X)$ 输出 $Y$ ，也就是说在满足条件的所有可能集中，条件熵 $P(Y|X)$ 最大的模型即为最好的模型。其中条件为隐藏在数据的期望。

一般来讲，最大熵模型常用于处理离散化数据集，定义随机变量 $X,Y$ 的特征模板，从数据中统计他们的期望作为最大熵模型的条件

特征函数：
$f(x,y)=\left\{\begin{matrix} 1，x，y满足某一事实\\ 0，否则 \end{matrix}\right.$
约束条件：对于任意的特征函数 $f$ ，我们可以统计其在数据中的经验分布 $\widetilde{P}(x,y)$ 的期望
$E_{\widetilde{p}}(f)=\sum_{x,y}\widetilde{P}(x,y)f(x,y)$
特征函数 $f$ 关于模型 $P(Y|X)$ 和先验 $\widetilde{P}(X)$ 的期望
$E_{p}(f)=\sum_{x,y}\widetilde{P}(x)P(y|x)f(x,y)$
所以，满足约束条件的模型集合为：
$\Omega \equiv \{ P\in \boldsymbol{P}| E_{p}(f_{i})=E_{\widetilde{p}}(f_{i}),i=1..n\}$
因此最大熵模型的形式化表示如下：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
由拉格让日乘子法，引入拉格让日乘子，定义拉格让日函数：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
根据拉格朗日乘子法， $L(P) \geq L(P,w)$ ,当且仅当满足拉格朗日乘子法的所有必要条件等式成立，原问题也就是一个最小化最大问题
$\min_{P \in C}\max_{w}L(P,w)$
对偶问题是：
$\max_{w} \min_{P \in C}L(P,w)$
求解对偶问题，第一步最小化内部 $\min_{P \in C}L(P,w)$ ， $\min_{P \in C}L(P,w)$ 是我们需要求解的模型，也是关于 $w$ 的函数。将模型的最优解记为 $P_{w}$ ：
$P_{w}=arg\max_{P \in C}L(P,w)=P_{w}(y|x)$
那么外层最大化目标函数为：
$\max_{w}\Phi(w)\\ \Phi(w)=\min_{p \in C}L(P,w)=L(P_{w},w)$
为了求解 $P_{w}(y|x)$ ，根据KKT条件对 $P(y|x)$ 求偏导：
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
求解得：
$P(y|x)=exp\left( \sum_{i} w_{i}f_{i}(x,y) +w_{0}-1 \right)=\frac{ \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)}{exp(1-w_{0})}$
这里，虽然我们不知道 $w_{0}$ ，但是由于 $\sum_{y}P(y|x)=1$ ,所以分母一定是对 $y$ 的所有可能的归一化因子
$P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y))$
到此，内部最小化求解得到了 $P_{w}(y|x)$ ，回到外部目标 $\max_{w}\Phi(w)$ ，将 $P_{w}(y|x)$ 代回拉格朗日函数有：
$\begin{aligned} \Phi(w) &=\sum_{x,y}\widetilde{P}(x)P_w(y|x)logP_w(y|x) + \sum^n_{i=1}w_i\left (\sum_{x,y}\widetilde{P}(x ,y)f(x,y) -\sum_{x,y}\widetilde{P}(x)P_w(y|x)f(x,y) \right )\\ &= \sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)\left (logP_w(y|x) - \sum_{i=1}^nw_if_i(x,y) \right) \\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)logZ_w(x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\sum_yP_w(y|x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\\ \end{aligned}$ Φ(w)=x,y∑P(x)Pw(y∣x)logPw(y∣x)+i=1∑nwi(x,y∑P(x,y)f(x,y)−x,y∑P(x)Pw(y∣x)f(x,y))=x,y∑P(x,y)i=1∑nwifi(x,y)+x,y∑P(x)Pw(y∣x)(logPw(y∣x)−i=1∑nwifi(x,y))=x,y∑P(x,y)i=1∑nwifi(x,y)+x,y∑P(x)Pw(y∣x)logZw(x)=x,y∑P(x,y)i=1∑nwifi(x,y)+x∑P(x)logZw(x)y∑Pw(y∣x)=x,y∑P(x,y)i=1∑nwifi(x,y)+x∑P(x)logZw(x)
因此， $\max_{w} \Phi(w)$ 的最优解为：
$w^* = arg \max_w \Phi(w)$
代回 $P_{w}(y|x)$ ，我们可以得到最终的分类模型，同样我们发现最大熵模型也是一个对数线性模型。

概率解释：

已知训练集的经验概率分布 $\widetilde{P}(x,y)$ ，条件概率分布 $P(y|x)$ 的对数似然函数为：
$L_{\widetilde{P}}(P_w) = log\prod_{x,y}P(y|x)^{\widetilde{P}(x,y)} = \sum_{x,y}\widetilde{P}(x,y)logP(y|x)$
其中，我们发现对数似然函数与条件熵的形式一致，最大熵模型目标函数前面有负号（这与最大化对数似然函数完全相反），同时最大熵模型中有约束条件。也正是因为约束条件，我们将原问题转化为对偶问题后发现，在满足约束条件的对偶函数的极大化等价于最大化对数似然函数。

当条件概率 $P(y|x)$ 满足约束条件，在对偶问题求解过程中我们有：
$P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y))$
代入到对数似然函数，同样有：
$\begin{aligned} L_{\widetilde{P}}(P_w) &= \sum_{x,y}\widetilde{P}(x,y)logP(y|x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\left ( \sum_{i=1}^n w_if_i(x,y) -logZ_w(x)\right )\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x,y}\widetilde{P}(x,y)logZ_w(x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\ \end{aligned}$
最后，我们再来看对偶函数表达式，我们发现，第一项其实是 $X,Y$ 的联合熵 $H(X,Y)$ ，第二项是X的信息熵 $H(X)$ ，回看熵的示意图，我们发现，我们最大化的目标还是条件熵 $H(Y|X)$ 。

从线性到非线性模型-对数线性模型

下面再来对比下Logistic回归，SoftMax回归，最大熵模型

1）同属于对数线性模型

2）Logistic回归和SoftMax回归都基于条件概率 $P(y|x)$ 满足一个伯努利分布，N重伯努利分布，而最大熵模型以期望为准，没有该假设

3）由于都采用线性模型，三者都假设特征之间是独立的

最大熵模型的优化问题

最大熵模型从拉格朗日乘子法最大化对偶函数，还是从最大化对数似然函数，其目标函数如下：
$L_{\widetilde{P}}(P_w)= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\$
常用的梯度优化算法都可以，另外对于最大熵模型也有专门的算法有GIS IIS 算法。