文章目录
重要概念
高斯分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N (μ, σ 2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
概率密度函数为:
中心极限定理
中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。
在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。
最大似然估计
最大似然估计(maximum likelihood estimation, MLE)
基本思想:求未知参数,使得样本获取样本值得概率最大。关键要写出似然函数,离散型随机变量和连续型随机变量的似然函数写法不同。
最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。
步骤
- 写出似然函数
- 取对数 lnL
- 对lnL针对θ求偏导
- 判断上面求出的偏导方程组 = 0 是否有解,如果有解则其解为所求对哒似然估计,若无解,则常在θi的边界点上达到。
正态分布的极大似然估计
概率密度函数可得似然函数如下:
取对数后得:
令:
解得
最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
其中θ的解析式为:
如果XTX不可逆或者为了防止过拟合,可以增加λ扰动(拉普拉斯平滑)
奇异值分解SVD
Moore-Penrose广义逆矩阵(伪逆)
SVD计算矩阵的广义逆
待补充。。。
线性回归
y = ax + b
h(x) = θ 0 + θ1 x1 + θ2 x2 + … = Σθ x = θT x
R2 = 1- RSS/TSS
RSS: residual sum of squares
TSS: total sum of squares
R2越大则拟合效果越好
R2最优值为1,若模型预测为随机值,R2有可能为负
梯度下降算法
注:适用于在线学习,跳出局部极小值
学习率为:α
梯度方向为:J对θ的偏导
J(θ) = 1/2 Σ(h(x) - y)2
J对θ的偏导 =
注:Σθixi对θj求偏导,由于只有θj含有θj,所以偏导后为xj
批量梯度下降算法
随机梯度下降算法 SGD
mini-batch
若干个样本的平均梯度作为更新方向
正则:防止过拟合
LASSO : L1-norm
Ridge : L2-norm
将目标和增加平方损失和
Elastic Net
逻辑回归
本质是做:沿似然函数正梯度上升
sigmoid函数
logistic函数
g’(x) = g(x)* (1-g(x))
logistic回归参数的学习规则
| y | 0 | 1 |
|---|---|---|
| p(y/x;θ) | 1-hθ(x) | hθ(x) |
则概率p的函数为: p(y|x;θ) = (hθ(x)) y (1-hθ(x))(1-y)
- 假设样本独立,得到似然函数:
L(θ) - 取对数
- 求偏导
本质是梯度上升,但是算作特殊梯度下降的一种只是方向为上升,这里为了求梯度。
使用之前的结论:g’(x) = g(x)* (1-g(x))
第三到四行末尾,由于只有θj含有θj,所以偏导后为xj
logistic回归参数的学习规则:
我们可以发现和线性回归的规则是一致的。除了h(x)定义是不一致的(一个是sigmoid一个是ax+b),logistic假设模型服从二项分布,线性回归假设模型服从高斯分布。logistic回归是广义的线性模型。
凡是符合指数族(说明广义线性模型GLM)分布的随机变量都可以用GLM回归分析。
损失函数
负的对数似然
待补充。。。
softmax回归
概率:
似然函数L(θ)
对数似然:
随机梯度
带约束的优化问题
普通色子某一次投掷出现5的概率为1/6(等概率)。如果经过N次试验后发现点数均值为2.71828,问下一次出现5的概率多大?
目标函数:H§ = -Σp lnp
约束条件:Σp = 1 Σi*pi = 2.71828
Lagrange函数:
解:
根据上述pi的解:
pi = e-1-λ1-i*λ2 , i = 1,2,3,4,5,6
计算梯度:
处理共线性特征
共线性:特征之间存在较强甚至完全的线性关系,使模型预测能力下降。
参考:
特征筛选(covariance计算等方法进行特征筛选)
进行特征组合
减小参数估计量的方差:岭回归法(Ridge Regression)
ROC AUC
AUC : Area Under Curve
ROC : Receiver Operationg Characteristic
TPR= TP / (TP+FN)
FPR= FP / (FP+TN)
ROC曲线绘制
y = [0,0,1,1]时,y_pred = [0.1, 0.5, 0.3, 0.8]
当以0.2为阈值时:
y_pred = [0,1,1,1]
| cofusion matrix | positive | negative |
|---|---|---|
| True | 2 | 0 |
| False | 1 | 1 |
TPR = 2/(2+0) = 1
FPR = 1/(1+1) = 0.5
计算各个不同的值为阈值情况下的TPR和FPR 得到图像:
可以轻易得到面积AUC = 0.75
ARIMA
ARIMA模型(英语:Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),是时间序列预测分析方法之一。
ARIMA(p,d,q)中,AR是“自回归”,p为自回归项数;MA为“滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。“差分”一词虽未出现在ARIMA的英文名称中,却是关键步骤。
待补充。。。