线性回归笔记

线性回归

介绍
优化策略
正则化

介绍

线性回归的假设是在输入X1,…,Xp与回归方程E(Y|X)的关系是线性的。

对于输入向量 $X^T =(X_1, X_2,..., X_p)$ , 线性回归模型公式为：

$f(X) = β_0 + \sum_{j=1}^p(X_jβ_j).$

其中参数β是需要训练集数据 $(x_1, y_1), …(x_N, y_N)$ 进行估计（estimate）的参数， $β = (β_0, β_1, …, β_p)^T$

优化策略

优化策略指的是按照什么样的准则学习或选择最优模型，所以在优化之前需引入一个函数在评判模型的拟合或预测的程度，即损失函数，记为L(β)。
通常线性回归采用最小二乘法来优化模型，即：
$L(β) =\frac{1}{2} \sum_{i=1}^N(y_i - f(x_i;β))^2 = \frac{1}{2}\sum_{i=1}^N(y_i - β_0 - \sum_{j=1}^Nx_{ij} β_j)^2$

如何最小化RSS呢？
方法一：矩阵求解

L(β)可以用矩阵形式表述： $L(β) = \frac{1}{2}(y − Xβ)^T (y − Xβ)$

对β进行求偏导：

$\frac{∂L(β)}{∂β} = −X^T (y − Xβ)$

假设X为满列秩矩阵，且 $X^T X$ 为正定矩阵，令一阶导数为0，即可求得唯一解：

$X^T (y − X β) = 0$

$\hat{β} = (X_T X)^{−1}X^T y$

训练输入的拟合值则可以写成：

$\hat{y} = X\hat{β} = X(X^T X)^{−1}X^T y$

方法二：梯度下降法
随机初始化β，通过不断迭代，使得损失函数L最小:
$β_j:= β_j - \alpha\frac{∂L(β)}{∂β_j}$

$\frac{∂L(β)}{∂β_j} = \sum_{i=1}^N(y_i - f(x_i;β))*\frac{∂}{∂β_j}(y_i - f(x_i;β))$
$= \sum_{i=1}^N(y_i - f(x_i;β))x_{ij}$
其中对于j = 0时， $x_{i} = 1$
用向量表示为：
$β:= β - \alpha(y_i - f(x_i;β))x_{i}$
其中， $\alpha$ 是学习率， $\alpha$ 为线性模型的超参（HyperParameter）。 $\alpha$ 不宜设置多大，否则会出现梯度爆炸的风险，也不宜设置过小，否则导致梯度下降速度过慢。
当L(β)为凸函数时，梯度下降法相当于让参数 $β$ 不断向J的最小值位置移动，否则有可能找到的并非全局最优值，而是局部最优值。

正则化

以下就是过拟合、欠拟合和拟合平衡的例子（摘自黄海广博士的统计学习方法代码实现，https://github.com/fengdu78/lihang-code）

线性回归笔记

为了避免模型过于复杂陷于过拟合，通常在模型优化时候引入正则化。
$min\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f)$
其中第1项为损失函数，第2项为正则化项，系数 $\lambda$ 为调整两者之间关系的系数，且 $\lambda >= 0$
在线性回归中正则化可以写成 $J(f) = ||β||^p$ ，
当p=1， $||β||_1$ 是参数β的L1范数，这时候线性回归为经典的Lasso回归；
当p=2时， $||β||^2$ 是参数β的L2范数，此时线性回归为经典的Ridge回归；
如果 $J(f) = \alpha||β||_1 + (1 - \alpha)||β||^2$ , 其中 $\alpha ∈(0, 1)$ ，此时线性回归为经典的Elastic回归

参考
李航统计学习方法第二版
https://github.com/fengdu78/lihang-code
https://github.com/datawhalechina/team-learning/blob/master/机器学习算法基础/Task1%20Linear_regression.ipynb