机器学习之logistic回归

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，它解决的是分类问题，常用于数据挖掘，疾病自动诊断，经济预测等领域。
1.logistic回归和线性回归的区别
logistic回归和线性回归的区别在于以下几点：
1）线性回归要求变量服从正态分布，logistic回归对变量分布没有要求。
2）线性回归要求因变量是连续性数值变量，而logistic回归要求因变量是分类型变量。
3）线性回归要求自变量和因变量呈线性关系，而logistic回归不要求自变量和因变量呈线性关系
4）logistic回归是分析因变量取某个值的概率与自变量的关系，而线性回归是直接分析因变量与自变量的关系
2. 区分logistic回归与线性回归
实际上，logistic回归与线性回归实际上有很多相同之处，最大的区别就在于他们的因变量不同，其他的基本都差不多，正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalized linear model）。这一家族中的模型形式基本上都差不多，不同的就是因变量不同，如果是连续的，就是多重线性回归，如果是二项分布，就是logistic回归。logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
3. softmax回归、logistic回归以及线性回归的关系
那么softmax回归、logistic回归以及线性回归他们三者是什么关系呢？logistic回归，Softmax回归以及线性回归都是基于线性模型。其实Softmax 就是logistic的推广，logistic一般用于二分类，而softmax是多分类。逻辑回归的**函数是sigmoid函数，可理解成一个被sigmoid函数归一化后的线性回归，sigmoid函数把实数映射到了[0,1]区间。logistic回归可以通过推广到softmax回归来解决多分类问题。
4. logistic/sigmoid函数
下面接着谈谈sigmoid函数，logistic函数的公式形式如下：
机器学习之logistic回归
sigmoid函数的数学公式：

sigmoid函数的因变量x取值范围是(-∞，+∞)，但是sigmoid函数的值域是(0,1)。不管x取什么值其对应的sigmoid函数值一定会落到(0,1)范围内。sigmoid函数对应的图形就是logistic曲线，logistic曲线对应的函数就是sigmoid函数。图形如下：
机器学习之logistic回归
sigmoid函数求导过程如下：

凡事都要做到知其然，知其所以然。sigmoid函数的值域∈(0,1)，这与概率值的范围[0,1]很是巧合，我们可以把sigmoid函数与一个概率分布联系起来，那就是伯努利分布。伯努利分布的概率质量函数为：
机器学习之logistic回归
也可以知道x=1时的概率为p，x=0时的概率为1-p，即f(1|p) = p，f(0|p) = 1-p。
5.Logistic回归参数的估定
Logistic回归参数的估定有很多方法，如极/最大似然估计、最小二乘法估计、稳健估计、贝叶斯估计、带惩罚项的极大似然估计。但是到目前为止使用最广泛的是极大似然估计和最小二乘估计。这里介绍最大似然估计方法：
机器学习之logistic回归
然后取对数似然函数：

Logistic回归参数的学习规则：

6.对数线性模型
一件事情的几率odds，是指该事件发生的概率与该事件不发生的概率的比值。
对数的几率称为：logit函数

7.logistic回归的损失函数以及损失
分析logistic回归的损失函数通常我们使用的是梯度下降法。
梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)，在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。
7.1logistic回归的损失函数
首先yi∈{0,1}
机器学习之logistic回归

7.2logistic回归的损失
首先yi∈{-1,1}

8.softmax回归
softmax逻辑回归模型是logistic回归模型在多分类问题上的推广。softmax回归有一个不寻常的特点：它有一个“冗余”的参数集。