逻辑斯蒂分布
定义:设X 是连续随机变量,X 服从逻辑斯蒂分布是指X 具有下列分布函数:
F(x)=P(X⩽x)=1+e(−(x−μ)/γ)1f(x)=dxdF(x)=γ(1+e(−(x−μ)/γ))2e(−(x−μ)/γ)
式中: μ,γ 为参数。
其函数图像如下:

二项逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y∣X) 表示。w=(w(1),w(2),…,w(n),b)T,x=(x(1),x(2),…,x(n),1),分类模型的条件概率分布如下:
P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)P(Y=0∣x)=1+exp(w⋅x)1
这是一个逻辑斯蒂分布,由逻辑斯蒂分布图可知:函数值越接近正无穷,概率值就越接近1,线性函数的值越接近负无穷,概率值就越接近0。
对于给定的输入实例x 按照上式计算,比较两个条件概率值的大小,将x 分到概率较大的哪一类。
定义事件的几率:事件发生的概率与事件不发生的概率的比值,所以其对数几率是:
logit(p)=log1−pp
逻辑斯蒂回归的对数几率为:
log1−P(Y=1∣x)P(Y=1∣x)=logP(Y=0∣x)P(Y=1∣x)=w⋅x
从上式可知:在逻辑斯蒂回归模型中,输出Y=1 的对数几率是输入x的线性函数。通过上式也可解得:
P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)
所以逻辑斯蒂回归又称“对数几率回归”。
模型的参数估计
对于给定数据集T={(x1,y1),(x2,y2),…,(xN,yN)},xi∈Rn,yi∈{0,1},可以通过极大似然函数法估计模型的参数。
设:
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
似然函数为:
i=1∏N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为:
L(w)=logi=1∏N[π(xi)]yi[1−π(xi)]1−yi=i=1∑N[yilog(π(xi))+(1−yi)log(1−π(xi))]=i=1∑N[yilog(1−π(xi)π(xi))+log(1−π(xi))]=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi))]
注:上式的最后一步应用了逻辑斯蒂回归的对数几率关系。
对L(w) 求极大值,得到w 的估计值。
这样问题就变成了以对数似然函数为目标的最优化问题,该问题可以用牛顿法进行求解。
最大化似然函数等价于最小化下式:
l(w)=i=1∑N[−yi(w⋅xi)+log(1+exp(w⋅xi))]
l(w) 是关于w 的高阶可导连续凸函数, 采用牛顿法进行迭代求解。
l(w) 是关于w 的一阶导数,二阶导数分别为:
∂w∂l(w)=i=1∑N[−yixi+1+exp(w⋅xi)xiexp(w⋅xi)]=−i=1∑Nxi(yi−1+exp(w⋅xi)exp(w⋅xi))=−i=1∑Nxi(yi−P(Y=1∣x))
∂w∂wT∂2l(w)=∂wT∂∑i=1N1+exp(w⋅xi)xiexp(w⋅xi)=i=1∑Nxi(1+exp(w⋅xi))2(1+exp(w⋅xi))exp(w⋅xi)xi−exp(w⋅xi)exp(w⋅xi)xi=i=1∑NxixiT(1+exp(w⋅xi))2exp(w⋅xi)=i=1∑NxixiTP(Y=1∣x)(1−P(Y=1∣x))
其t+1 轮迭代更新的公式为:
w(t+1)=w(t)−(∂w∂wT∂2l(w))−1∂w∂l(w)