为什么我们不能在 CART 模型中得到平滑的 ROC 曲线答案

【问题标题】：Why don't we get a smooth ROC curve in CART models为什么我们不能在 CART 模型中得到平滑的 ROC 曲线
【发布时间】：2017-03-16 02:12:26
【问题描述】：

我正在尝试比较从逻辑回归和 CART 模型获得的 ROC 曲线。我发现逻辑回归的 ROC 曲线非常平滑。这是有道理的，因为阈值范围在 [0,1] 之间是连续的。我想了解为什么 CART 模型的 ROC 曲线不平滑。提前感谢您的帮助。

【问题讨论】：

逻辑回归拟合连续函数。树是离散的。但是，如果您的数据不是平滑的，即使逻辑回归也会产生阶梯状的 ROC 曲线。
我提名这个迁移到 datascience.stackexchange - 这似乎不是一个编程问题。
题外话：迁移到 datascience.stackexchange

标签： r machine-learning classification

【解决方案1】：

原因很简单——决策树中的阈值很清晰，因为这通常是叶子中类的有效比率。如果你有 N 个训练点，那么一片叶子只有 N 个不同的可能比率，因此（最多）N 个可能的分类可以通过移动这个阈值来获得。您可以通过以下方式解决这个问题，最后每个点在落到某个叶子时被分类。在这片叶子中，您有 K 个正样本和 M 个负样本。您根据 K/(M+K) > 阈值分类为正类。 K/(M+K) 可以取多少个不同的值？你的树可以有多少片叶子？最后，这些数字并没有那么大（它们远小于 N），因此大多数阈值根本没有改变。更直观 - 决策树将您的输入空间分成大块。一旦你翻转一个阈值（叶子），一大块就会改变类（颜色）——从而在你的 ROC 曲线中产生很大的跳跃。

对于逻辑回归，您（几乎）总是拥有所有可能性，因为一旦您训练了 w，每个测试/训练点都会有不同的投影（假设它们来自某个连续分布），因此当您在此处移动阈值 (1./(1+exp(+b)) > threshold) 您将获得 N+1 个可能的标签，因为如果您在 w 上可视化您的投影点，它将看起来像：

* *            * * * *    *    *       *      *  *       * *
--------------------------------------------------------------->
<w, x>

根据阈值的选择，您将从 -inf 到阈值的所有内容分类到一个类别，然后再分类到另一个类别（从而创建 N+1 个可能的标签），从而为您提供平滑的 ROC 曲线。

【讨论】：