逻辑斯蒂回归详解

文章目录

逻辑斯蒂分布
二项逻辑斯蒂回归模型
模型的参数估计

逻辑斯蒂分布

定义：设 $X$ 是连续随机变量， $X$ 服从逻辑斯蒂分布是指 $X$ 具有下列分布函数：
$F(x)=P(X\leqslant x)=\frac{1}{1+e^{(-(x-\mu)/\gamma)}}\\ f(x) = \frac{\mathrm{d}F(x)}{\mathrm{d}x} = \frac{e^{(-(x-\mu)/\gamma)}}{\gamma(1+e^{(-(x-\mu)/\gamma)})^2}$
式中： $\mu,\gamma$ 为参数。

其函数图像如下：

逻辑斯蒂回归详解

二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是一种分类模型，由条件概率分布 $P(Y|X)$ 表示。 $w=(w^{(1)},w^{(2)},\ldots,w^{(n)},b)^T$ ， $x=(x^{(1)},x^{(2)},\ldots,x^{(n)},1)$ ，分类模型的条件概率分布如下：
$\begin{aligned} P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}\\ \end{aligned}$
这是一个逻辑斯蒂分布，由逻辑斯蒂分布图可知：函数值越接近正无穷，概率值就越接近1，线性函数的值越接近负无穷，概率值就越接近0。

对于给定的输入实例 $x$ 按照上式计算，比较两个条件概率值的大小，将 $x$ 分到概率较大的哪一类。

定义事件的几率：事件发生的概率与事件不发生的概率的比值，所以其对数几率是：
$logit(p)=\log\frac{p}{1-p}$
逻辑斯蒂回归的对数几率为：
$\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\color{red}\log\frac{P(Y=1|x)}{P(Y=0|x)}\color{black}=w\cdot x$
从上式可知：在逻辑斯蒂回归模型中，输出 $Y=1$ 的对数几率是输入x的线性函数。通过上式也可解得：
$P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}$
所以逻辑斯蒂回归又称“对数几率回归”。

模型的参数估计

对于给定数据集 $T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}, x_i \in \mathcal R^n, y_i \in\{0,1\}$ ，可以通过极大似然函数法估计模型的参数。

设：
$P(Y=1|x)=\pi(x),\qquad P(Y=0|x)=1-\pi(x)$
似然函数为：
$\prod^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为：
$\begin{aligned} L(w) &=\log \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}\\&=\sum_{i=1}^N[y_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i\log(\frac{\pi(x_i)}{1-\pi(x_i)})+\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))] \end{aligned}$
注：上式的最后一步应用了逻辑斯蒂回归的对数几率关系。

对 $L(w)$ 求极大值，得到 $w$ 的估计值。

这样问题就变成了以对数似然函数为目标的最优化问题，该问题可以用牛顿法进行求解。

最大化似然函数等价于最小化下式：
$\mathcal l(w) = \sum_{i=1}^N[-y_i(w\cdot x_i)+\log(1+\exp(w\cdot x_i))]$
$\mathcal l(w)$ 是关于 $w$ 的高阶可导连续凸函数，采用牛顿法进行迭代求解。

$\mathcal l(w)$ 是关于 $w$ 的一阶导数，二阶导数分别为：
$\begin{aligned} \frac{\partial\mathcal l(w)}{\partial w} &=\sum_{i=1}^N[-y_ix_i+\frac{x_i\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}]\\ &=-\sum_{i=1}^N x_i\left(y_i-\frac{\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}\right)\\ &=-\sum_{i=1}^N x_i\left(y_i-P(Y=1|x)\right) \end{aligned}$

$\begin{aligned} \frac{\partial^2 \mathcal l(w)}{\partial w \partial w^T}&=\frac{\partial \sum_{i=1}^N\frac{x_i\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}}{\partial w^T} \\ &=\sum_{i=1}^N x_i \frac{(1+\exp(w\cdot x_i))\exp(w\cdot x_i)x_i-\exp(w\cdot x_i)\exp(w\cdot x_i)x_i}{(1+\exp(w\cdot x_i))^2}\\ &=\sum_{i=1}^Nx_ix_i^T\frac{\exp(w\cdot x_i)}{(1+\exp(w\cdot x_i))^2}\\ &=\sum_{i=1}^Nx_ix_i^TP(Y=1|x)(1-P(Y=1|x)) \end{aligned}$

其 $t+1$ 轮迭代更新的公式为：
$w^{(t+1)} = w^{(t)} - \left(\frac{\partial^2 \mathcal l(w)}{\partial w \partial w^T}\right)^{-1} \frac{\partial \mathcal l(w)}{\partial w}$