(整理自AndrewNG的课件,转载请注明。整理者:华科小涛@http://www.cnblogs.com/hust-ghtao/

 

    虽然叫做“回归”,但是这个算法是用来解决分类问题的。回归与分类的区别在于:回归所预测的目标量的取值是连续的(例如房屋的价格);而分类所预测的目标变量的取值是离散的(例如判断邮件是否为垃圾邮件)。当然,为了便于理解,我们从二值分类(binary classification)开始,在这类分类问题中,y只能取0或1。更好的理解问题,先举个小例子:假如我们要制作一个垃圾邮件过滤系统,如果一封邮件是垃圾系统,y=1,否则y=0 。给定训练样本集,当然它们的特征Logistic Regression(逻辑回归)(一)基本原理和labelLogistic Regression(逻辑回归)(一)基本原理都已知,我们就是要训练一个分类器,将它们分开。

    不要用线性回归问题去解决分类问题,这是AndrewNG给出的一个忠告!原因很简单,看下图:

 

Logistic Regression(逻辑回归)(一)基本原理 ,看着效果还不错吧,那你在看看下图:

 

Logistic Regression(逻辑回归)(一)基本原理  ,不靠谱吧,只是多了几个正类的点而已,分类线就发生了很大的变化。

 

    为了解决这个问题,我们提出了新的假设函数:

      Logistic Regression(逻辑回归)(一)基本原理

    其中:

     Logistic Regression(逻辑回归)(一)基本原理,图像:

    Logistic Regression(逻辑回归)(一)基本原理 ,我们把这个函数叫做logistic函数,或者sigmoid函数。我们可以发现,当z趋向无穷时,g(z)趋向于1;当z趋向于负无穷时,g(z)趋向于0 ,即当z从负无穷到正无穷的变化时,现在看来,g(z)从0变化到1 ,且g(0)=0.5 。我们要预测的值为0或1,g(z)的变化范围恰好为(0,1),我们想到概率的取值也为(0,1)哈,那索性就用g(z)表示一概率值吧,所以我们假设:

 

    Logistic Regression(逻辑回归)(一)基本原理 ,也可以写成:

 

    Logistic Regression(逻辑回归)(一)基本原理

 

    下面我们就要用到极大似然原理:一件事情已经发生了,我们就认为这件事情发生的概率最大,用关于参数的函数来表示出这个概率,求出其最大值所对应的参数值就是我们的目的。在们问题中,给出一个训练集(大小为m),其Logistic Regression(逻辑回归)(一)基本原理Logistic Regression(逻辑回归)(一)基本原理都已知,也就是这件事情已经发生,那我们就求其概率,令其最大:

    似然函数:

   

    Logistic Regression(逻辑回归)(一)基本原理

 

    便于计算,要对其取对数:

 

    Logistic Regression(逻辑回归)(一)基本原理 ,接下来的问题就是要求这个函数的极大值了,很简单,梯度下降法啦:

   

    Logistic Regression(逻辑回归)(一)基本原理 ,注意其实应该叫做梯度上升法,梯度下降法是“-”,但这里求极大值,所以是“+”。

 

    其中求偏导的部分由:

   

    Logistic Regression(逻辑回归)(一)基本原理 ,得到:

 

 

    Logistic Regression(逻辑回归)(一)基本原理

 

    最终,我们得到参数Logistic Regression(逻辑回归)(一)基本原理的更新法则:

 

    Logistic Regression(逻辑回归)(一)基本原理

 

看着很眼熟把,和Linear Regression的是不是特别像,没错!就差中间一个符号。。。但两个可不是一个算法哦,因为Logistic Regression(逻辑回归)(一)基本原理是不同的。记住这个形式!它们相同的形式恰恰体现了数学的美!

相关文章:

  • 2021-08-04
  • 2021-07-27
  • 2021-11-16
  • 2021-11-07
  • 2021-12-29
猜你喜欢
  • 2021-04-14
  • 2021-11-30
  • 2021-05-17
  • 2021-09-03
  • 2021-06-20
  • 2021-08-07
相关资源
相似解决方案