逻辑斯蒂分布

定义:设XX 是连续随机变量,XX 服从逻辑斯蒂分布是指XX 具有下列分布函数:
F(x)=P(Xx)=11+e((xμ)/γ)f(x)=dF(x)dx=e((xμ)/γ)γ(1+e((xμ)/γ))2 F(x)=P(X\leqslant x)=\frac{1}{1+e^{(-(x-\mu)/\gamma)}}\\ f(x) = \frac{\mathrm{d}F(x)}{\mathrm{d}x} = \frac{e^{(-(x-\mu)/\gamma)}}{\gamma(1+e^{(-(x-\mu)/\gamma)})^2}
式中: μ,γ\mu,\gamma 为参数。

其函数图像如下:

逻辑斯蒂回归详解

二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(YX)P(Y|X) 表示。w=(w(1),w(2),,w(n),b)Tw=(w^{(1)},w^{(2)},\ldots,w^{(n)},b)^Tx=(x(1),x(2),,x(n),1)x=(x^{(1)},x^{(2)},\ldots,x^{(n)},1),分类模型的条件概率分布如下:
P(Y=1x)=exp(wx)1+exp(wx)P(Y=0x)=11+exp(wx) \begin{aligned} P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}\\ \end{aligned}
这是一个逻辑斯蒂分布,由逻辑斯蒂分布图可知:函数值越接近正无穷,概率值就越接近1,线性函数的值越接近负无穷,概率值就越接近0。

对于给定的输入实例xx 按照上式计算,比较两个条件概率值的大小,将xx 分到概率较大的哪一类。

定义事件的几率:事件发生的概率与事件不发生的概率的比值,所以其对数几率是:
logit(p)=logp1p logit(p)=\log\frac{p}{1-p}
逻辑斯蒂回归的对数几率为:
logP(Y=1x)1P(Y=1x)=logP(Y=1x)P(Y=0x)=wx \log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\color{red}\log\frac{P(Y=1|x)}{P(Y=0|x)}\color{black}=w\cdot x
从上式可知:在逻辑斯蒂回归模型中,输出Y=1Y=1 的对数几率是输入x的线性函数。通过上式也可解得:
P(Y=1x)=exp(wx)1+exp(wx) P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}
所以逻辑斯蒂回归又称“对数几率回归”。

模型的参数估计

对于给定数据集T={(x1,y1),(x2,y2),,(xN,yN)},xiRn,yi{0,1}T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}, x_i \in \mathcal R^n, y_i \in\{0,1\},可以通过极大似然函数法估计模型的参数。

设:
P(Y=1x)=π(x),P(Y=0x)=1π(x) P(Y=1|x)=\pi(x),\qquad P(Y=0|x)=1-\pi(x)
似然函数为:
i=1N[π(xi)]yi[1π(xi)]1yi \prod^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
对数似然函数为:
L(w)=logi=1N[π(xi)]yi[1π(xi)]1yi=i=1N[yilog(π(xi))+(1yi)log(1π(xi))]=i=1N[yilog(π(xi)1π(xi))+log(1π(xi))]=i=1N[yi(wxi)log(1+exp(wxi))] \begin{aligned} L(w) &=\log \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}\\&=\sum_{i=1}^N[y_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i\log(\frac{\pi(x_i)}{1-\pi(x_i)})+\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))] \end{aligned}
注:上式的最后一步应用了逻辑斯蒂回归的对数几率关系。

L(w)L(w) 求极大值,得到ww 的估计值。

这样问题就变成了以对数似然函数为目标的最优化问题,该问题可以用牛顿法进行求解。

最大化似然函数等价于最小化下式:
l(w)=i=1N[yi(wxi)+log(1+exp(wxi))] \mathcal l(w) = \sum_{i=1}^N[-y_i(w\cdot x_i)+\log(1+\exp(w\cdot x_i))]
l(w)\mathcal l(w) 是关于ww 的高阶可导连续凸函数, 采用牛顿法进行迭代求解。

l(w)\mathcal l(w) 是关于ww 的一阶导数,二阶导数分别为:
l(w)w=i=1N[yixi+xiexp(wxi)1+exp(wxi)]=i=1Nxi(yiexp(wxi)1+exp(wxi))=i=1Nxi(yiP(Y=1x)) \begin{aligned} \frac{\partial\mathcal l(w)}{\partial w} &=\sum_{i=1}^N[-y_ix_i+\frac{x_i\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}]\\ &=-\sum_{i=1}^N x_i\left(y_i-\frac{\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}\right)\\ &=-\sum_{i=1}^N x_i\left(y_i-P(Y=1|x)\right) \end{aligned}

2l(w)wwT=i=1Nxiexp(wxi)1+exp(wxi)wT=i=1Nxi(1+exp(wxi))exp(wxi)xiexp(wxi)exp(wxi)xi(1+exp(wxi))2=i=1NxixiTexp(wxi)(1+exp(wxi))2=i=1NxixiTP(Y=1x)(1P(Y=1x)) \begin{aligned} \frac{\partial^2 \mathcal l(w)}{\partial w \partial w^T}&=\frac{\partial \sum_{i=1}^N\frac{x_i\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}}{\partial w^T} \\ &=\sum_{i=1}^N x_i \frac{(1+\exp(w\cdot x_i))\exp(w\cdot x_i)x_i-\exp(w\cdot x_i)\exp(w\cdot x_i)x_i}{(1+\exp(w\cdot x_i))^2}\\ &=\sum_{i=1}^Nx_ix_i^T\frac{\exp(w\cdot x_i)}{(1+\exp(w\cdot x_i))^2}\\ &=\sum_{i=1}^Nx_ix_i^TP(Y=1|x)(1-P(Y=1|x)) \end{aligned}

t+1t+1 轮迭代更新的公式为:
w(t+1)=w(t)(2l(w)wwT)1l(w)w w^{(t+1)} = w^{(t)} - \left(\frac{\partial^2 \mathcal l(w)}{\partial w \partial w^T}\right)^{-1} \frac{\partial \mathcal l(w)}{\partial w}

相关文章:

  • 2021-04-30
  • 2021-11-12
  • 2021-06-22
  • 2021-11-03
  • 2021-12-09
  • 2021-07-30
猜你喜欢
  • 2022-12-23
  • 2021-10-27
  • 2021-11-26
  • 2022-12-23
  • 2021-05-21
相关资源
相似解决方案