机器学习_回归(线性，逻辑)

重要概念

高斯分布

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）。
若随机变量X服从一个数学期望为μ、方差为σ²的正态分布，记为N (μ， σ ²)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
概率密度函数为：
机器学习_回归(线性，逻辑)

中心极限定理

中心极限定理，是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。
在自然界与生产中，一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。

最大似然估计

最大似然估计(maximum likelihood estimation, MLE）
基本思想：求未知参数，使得样本获取样本值得概率最大。关键要写出似然函数，离散型随机变量和连续型随机变量的似然函数写法不同。
最大似然估计是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。

步骤

写出似然函数
取对数 lnL
对lnL针对θ求偏导
判断上面求出的偏导方程组 = 0 是否有解，如果有解则其解为所求对哒似然估计，若无解，则常在θi的边界点上达到。

正态分布的极大似然估计

概率密度函数可得似然函数如下：
机器学习_回归(线性，逻辑)
取对数后得：

令：

解得

最小二乘法

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
其中θ的解析式为：
机器学习_回归(线性，逻辑)

如果XTX不可逆或者为了防止过拟合，可以增加λ扰动（拉普拉斯平滑）

奇异值分解SVD

Moore-Penrose广义逆矩阵（伪逆）
SVD计算矩阵的广义逆
待补充。。。

线性回归

y = ax + b
h(x) = θ 0 + θ1 x1 + θ2 x2 + … = Σθ x = θ^T x

R² = 1- RSS/TSS
RSS: residual sum of squares
TSS: total sum of squares
机器学习_回归(线性，逻辑)
R²越大则拟合效果越好
R²最优值为1，若模型预测为随机值，R²有可能为负

梯度下降算法

注：适用于在线学习，跳出局部极小值
机器学习_回归(线性，逻辑)
学习率为：α
梯度方向为：J对θ的偏导
J(θ) = 1/2 Σ(h(x) - y)²
J对θ的偏导 =

注：Σθixi对θj求偏导，由于只有θj含有θj，所以偏导后为xj

批量梯度下降算法

机器学习_回归(线性，逻辑)

随机梯度下降算法 SGD

机器学习_回归(线性，逻辑)

mini-batch

若干个样本的平均梯度作为更新方向

正则：防止过拟合

LASSO : L1-norm

机器学习_回归(线性，逻辑)

Ridge : L2-norm

将目标和增加平方损失和
机器学习_回归(线性，逻辑)

Elastic Net

机器学习_回归(线性，逻辑)

逻辑回归

本质是做：沿似然函数正梯度上升
sigmoid函数
机器学习_回归(线性，逻辑)
logistic函数

g’(x) = g(x)* (1-g(x))

logistic回归参数的学习规则

y	0	1
p(y/x;θ)	1-hθ(x)	hθ(x)

则概率p的函数为： p(y|x;θ) = (hθ(x)) ^y (1-hθ(x))^(1-y)

假设样本独立，得到似然函数：
L(θ）
取对数
求偏导
本质是梯度上升，但是算作特殊梯度下降的一种只是方向为上升，这里为了求梯度。
使用之前的结论：g’(x) = g(x)* (1-g(x))

第三到四行末尾，由于只有θj含有θj，所以偏导后为xj

logistic回归参数的学习规则：
机器学习_回归(线性，逻辑)
我们可以发现和线性回归的规则是一致的。除了h(x)定义是不一致的（一个是sigmoid一个是ax+b)，logistic假设模型服从二项分布，线性回归假设模型服从高斯分布。logistic回归是广义的线性模型。

凡是符合指数族（说明广义线性模型GLM）分布的随机变量都可以用GLM回归分析。

损失函数

负的对数似然
待补充。。。

softmax回归

概率：
机器学习_回归(线性，逻辑)
似然函数L（θ）

对数似然：

随机梯度

带约束的优化问题

普通色子某一次投掷出现5的概率为1/6（等概率）。如果经过N次试验后发现点数均值为2.71828，问下一次出现5的概率多大？
目标函数：H§ = -Σp lnp
约束条件：Σp = 1 Σi*pi = 2.71828
Lagrange函数：
机器学习_回归(线性，逻辑)
解：

根据上述pi的解：
pi = e^-1-λ1-i*λ2 , i = 1，2，3，4，5，6
计算梯度：

处理共线性特征

共线性：特征之间存在较强甚至完全的线性关系，使模型预测能力下降。
参考：
特征筛选（covariance计算等方法进行特征筛选）
进行特征组合
减小参数估计量的方差：岭回归法（Ridge Regression）

ROC AUC

AUC : Area Under Curve
ROC : Receiver Operationg Characteristic

TPR= TP / (TP+FN)
FPR= FP / (FP+TN)

机器学习_回归(线性，逻辑)

ROC曲线绘制

y = [0,0,1,1]时，y_pred = [0.1, 0.5, 0.3, 0.8]
当以0.2为阈值时：
y_pred = [0,1,1,1]

cofusion matrix	positive	negative
True	2	0
False	1	1

TPR = 2/(2+0) = 1
FPR = 1/(1+1) = 0.5

计算各个不同的值为阈值情况下的TPR和FPR 得到图像：
机器学习_回归(线性，逻辑)
可以轻易得到面积AUC = 0.75

ARIMA

ARIMA模型（英语：Autoregressive Integrated Moving Average model），差分整合移动平均自回归模型，又称整合移动平均自回归模型（移动也可称作滑动），是时间序列预测分析方法之一。
ARIMA(p，d，q)中，AR是“自回归”，p为自回归项数；MA为“滑动平均”，q为滑动平均项数，d为使之成为平稳序列所做的差分次数（阶数）。“差分”一词虽未出现在ARIMA的英文名称中，却是关键步骤。

待补充。。。

文章目录

重要概念

高斯分布

中心极限定理

最大似然估计

步骤

正态分布的极大似然估计

最小二乘法

奇异值分解SVD

线性回归

梯度下降算法

批量梯度下降算法

随机梯度下降算法 SGD

mini-batch

正则：防止过拟合

LASSO : L1-norm

Ridge : L2-norm

Elastic Net

逻辑回归

logistic回归参数的学习规则

损失函数

softmax回归

带约束的优化问题

处理共线性特征

ROC AUC

ROC曲线绘制

ARIMA