何时准确使用逻辑回归而不是线性回归？答案

【问题标题】：When exactly to use logistic instead of linear regression?何时准确使用逻辑回归而不是线性回归？
【发布时间】：2015-08-10 17:46:09
【问题描述】：

在癌症的安德鲁斯逻辑回归示例中，我可以画一条水平线 y=.5，（显然通过 y=.5 ），如果有任何点在这条线上方 y=.5 => +ve ，则为十，否则-ve。那么为什么我需要逻辑回归。我只是想了解使用逻辑回归的最佳案例解释？

正如你在图片中看到的那样，一条水平线清楚地划分了两个类别，为什么还要选择逻辑？

【问题讨论】：

因为这个数据是线性可分的（可以用直线分开），所以不需要逻辑回归。但是存在非线性可分离问题，需要一条曲线来分离类。非线性可分问题最简单的例子是异或，如果你在异或图中绘制真假，你会发现你不能用一条直线将它们分开，但你需要一条曲线来代替
所以首先我们应该绘制我们的训练数据，检查它是否线性可分，然后只要数据是非线性可分的，我们就应该使用逻辑。我们应该这样处理吗？
这对于某些数据来说是一种非常好的方法，尽管对于更高维度的数据可能会变得更加困难。但是在选择模型之前绘制不同特征的直方图等来分析数据可以让事情变得更容易。

【解决方案1】：

我认为，您在问题中混淆了独立（已知）和依赖（您试图预测的）变量。

我可以画一条水平线 y=.5，（显然穿过 y=.5 )，如果有任何点在这条线上方，则为 10 y=.5 => +ve ，否则为 -ve。

0.5 处的水平线假定您知道 y。但实际上，这正是您尝试根据已知的x（在您的情况下为肿瘤大小）预测的内容。

这是逻辑。基于您知道y 的“训练”示例，您正在构建模型h(x)。然后你说：如果 h(x)>0.5（或其他阈值），则 y=1，否则 y=0。现在您将模型应用到“测试”集，您仅知道x，而您预测y。

考虑到这一点，您的问题是：h(x) 看起来像一条直线还是逻辑函数？你可以不画一条 y=0.5 的线，因为你不知道y。

【讨论】：

【解决方案2】：

简而言之，当您需要classification，即预测预定义（名义）类之一时，使用逻辑回归；当您需要regression，即预测定量值时，使用线性回归。

此外，线性回归假设输入（特征）和结果之间存在线性相关性，而逻辑回归假设结果以二项式分布。逻辑回归的响应可以解释为分类器置信度。

在stats.stackexchange 或differencebetween 上查看类似问题的答案。

【讨论】：