线性回归算法梳理

概念

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
一个简单例子：银行通过申请人的工资和年龄来评估贷款人可贷款的额度，年龄X1和工资X2是两个特征，我们希望通过X1、X2两个特征来判断贷款额度y。

工资	年龄	额度
4000	25	20000
8000	30	70000
5000	28	35000
7500	33	50000
12000	40	85000

线性回归算法梳理

最小二乘法

上面银行贷款的例子，通过已有X1、X2和y的取值确定拟合平面 $h_{\theta}=\theta_{0}+\theta_{1}X_{1}+\theta_{2}X_{2}$ 即 $h_{\theta}=\sum_{i=0}^{i=m}\theta^{T}X_{i}$
真实值与预测值之间的误差用 $\varepsilon$ 表示，则 $y^{(i)}=\theta^{T}X^{(i)}+\varepsilon^{(i)}$
误差 $\varepsilon^{(i)}$ 服从均值为0，方差为 $\theta^{2}$ 的高斯分布，因此，
线性回归算法梳理
即

亦即确定合适的 $\theta$ 使得y发生的概率最大，即可建立似然函数
线性回归算法梳理
转换为对数似然：

我们的目标是使得似然函数的值越大越好，因此，通过上式目标可以转化为求J（ $\theta$ ）的最小值，亦即最小二乘法。

梯度下降求解

线性回归算法梳理

logistic回归

线性回归同样可以用于分类问题，通过Sigmoid函数建立回归与分类之间的联系，
Sigmoid函数： $g=1/(1+e^{-z})$ , 为一个定义域为- $\infty到+\infty$ ，值域为[0,1]的函数，因此，通过线性回归得到一个预测值，再将这个预测值输入到Sigmoid函数，会输出一个[0，1]之间的一个值，这个值为事件发生的概率，因此，可以用于分类问题。Sigmoid函数图像如下：
线性回归算法梳理

同样，建立似然函数

对对数似然函数求导：