线性回归（Linear Regression）

线性回归简介

在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。[百度百科]

线性回归可以说是最简单的模型了，经常被用于连续型变量的预测问题。如：某地区的玉米产量，某个公司的营收等。线性回归（Linear Regression）

最小二乘法¹

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

“最小二乘法”是对过度确定系统，即其中存在比未知数更多的方程组，以回归分析求得近似解的标准方法。在这整个解决方案中，最小二乘法演算为每一方程式的结果中，将残差平方和的总和最小化。

最重要的应用是在曲线拟合上。最小平方所涵义的最佳拟合，即残差（残差为：观测值与模型提供的拟合值之间的差距）平方和的最小化。当问题在自变量（x变量）有重大不确定性时，那么使用简易回归和最小二乘法会发生问题；在这种情况下，须另外考虑变量-误差-拟合模型所需的方法，而不是最小二乘法。

线性回归的数学模型

假设输入样本 $x$ 是一个已经处理好的向量（比如书 $x$ 中没有定性的变量）。 $x=(x_1,x_2,\ldots ,x_n)$ , 因变量为 $y$ .
线性模型为： $f(x)=\beta_0+\sum_{j=1}^n\beta_jx_j$
利用最小二乘法来估计我们所需的参数：定义残差平方和（residual sum of squares RSS）
$RSS(\beta)=\sum_{i=1}^m(y_i-f(x_i))^2=\sum_{i=1}^m(y_i-\beta_0-\sum_{j=1}^n\beta_jx_{ij})^2\\ m表示样本的个数，n表示样本的维数，i表示第i个样本，j表示第j个变量$
求解 $\beta$
记矩阵 $\mathbf{X}_{m*(n+1)}$ 为训练数据：
$\begin{aligned} \mathbf{X}= \left( \begin{array}{ccccc} 1 &x_{11} &x_{12} &\ldots &x_{1n}\\ 1 &x_{21} &x_{22} &\ldots &x_{2n}\\ \vdots &\ddots &\ddots &\ddots &\vdots\\ 1 &x_{m1} &x_{m2} &\ldots &x_{mn}\\ \end{array} \right) \mathbf{\beta}= \left( \begin{array}{c} \beta_{0}\\ \beta_{1}\\ \vdots\\ \beta_n \end{array} \right) \mathbf{Y}= \left( \begin{array}{c} y_{0}\\ y_{1}\\ \vdots\\ y_n \end{array} \right) \end{aligned}\\ \begin{aligned} \\RSS(\beta)&=(\mathbf{Y}-\mathbf{X}\beta)^T(\mathbf{Y}-\mathbf{X}\beta)\\ &=\mathbf{Y}^T\mathbf{Y}-2\beta^T\mathbf{X}^T\mathbf{Y}+\beta^T\mathbf{X}^T \mathbf{X}\beta\end{aligned}$
对RSS关于 $\beta$ 求导：
$\begin{aligned} \frac{\partial RSS}{\partial \beta}&=-2\mathbf{X}^T\mathbf{Y}+2\mathbf{X}^T \mathbf{X}\beta\\ &=-2\mathbf{X}^T(\mathbf{Y}-\mathbf{X}\beta)\\ \\\frac{\partial^2RSS}{\partial \beta \partial \beta^T}&=-2\mathbf{X}^T\mathbf{X} \end{aligned}$
假设 $\mathbf{X}$ 是满秩的，则 $\mathbf{X}^T\mathbf{X}$ 是正定的。令一阶导等于 $0$ , 即
$\begin{aligned} -\mathbf{X}^T\mathbf{Y}+\mathbf{X}^T=0\\ \\得\hat \beta=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y} \end{aligned}$
此时训练数据的拟合值为：
$\begin{aligned} \hat \mathbf{Y}&=\mathbf{X}\hat \beta=\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}\\ hat\quad matrix&=\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \end{aligned}$
方差形式分析
从几何角度来理解方差的分解是比较容易的，我们看下面这张图:

易得
$\begin{aligned} \sum_{i=1}^m(y_i-\overline y)^2&=\sum_{i=1}^m(\hat y_i-\overline y)^2+\sum_{i=1}^m(\hat y_i-y_i)^2\\ \\ TSS&=ESS+RSS \end{aligned}$
Total sum of squares(TSS)：训练数据的总方差。
Explained sum of squares(ESS)：解释平方和或回归平方和，预测值和因变量均值之间的偏差。
Residual sum of squares(RSS)：残差平方和，数据点与其在回归线上的位置的差异的平方和。解释变量和随机误差的效应。
方差解释系数(判定系数，the fraction of variance explained)：
$R^2=\frac{ESS}{TSS}=1-\frac{RSS}{TSS}\qquad 0\le R^2 \le 1$
残差平方和与总平方和之间的比值越小，判定系数 $R^2$ 越大，说明线性回归拟合得越好。说明自变量的变异在因变量的变异中所占的比例越大。

最小二乘估计的性质

建设 $y_i$ 之间是相互独立的， $\mathbf{X}是不变的矩阵，$ 并有固定的方差 $\sigma^2$ ，则：
$var(\mathbf{Y})=\sigma^2 \mathbf{I}_m$
提醒：若 $\mathbf{A}$ 是一个不变的矩阵，则：
$E(\mathbf{A}\mathbf{Y})=\mathbf{A}E(\mathbf{Y})\\ var(\mathbf{A}\mathbf{Y})=\mathbf{A}var(\mathbf{Y})\mathbf{A}^T$
所以：
$\begin{aligned} \hat \beta&=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}\\ \\ E(\hat \beta)&=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^TE(\mathbf{Y})\\ &=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{X}\beta\\ &=\beta\\ \\ var(\hat \beta)&=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^Tvar(\mathbf{Y})\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\\ &=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\sigma^2 \mathbf{I}_m\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\\ &=(\mathbf{X}^T\mathbf{X})^{-1}\sigma^2 \end{aligned}$
方差估计
$\hat \sigma^2=\frac{1}{m-n-1}\sum_{i=1}^m(y_i-\hat y_i)^2\\ \widehat {var(\hat \beta)} = (\mathbf{X}^T\mathbf{X})^{-1}\hat \sigma^2$
这样 $E(\hat \sigma^2)=E(\sigma^2)$ ,为无偏估计.

Gauss-Markov定理

用最小二乘法估计出来的 $\beta$ 是所有线性无偏估计中方差最小的。

Python代码实现

https://github.com/Haifei-ZHANG/machine-learning-algorithms/tree/master/Linear Regression

维基百科：最小二乘法 ↩︎