【问题标题】:Why don't we get a smooth ROC curve in CART models为什么我们不能在 CART 模型中得到平滑的 ROC 曲线
【发布时间】:2017-03-16 02:12:26
【问题描述】:

我正在尝试比较从逻辑回归和 CART 模型获得的 ROC 曲线。我发现逻辑回归的 ROC 曲线非常平滑。这是有道理的,因为阈值范围在 [0,1] 之间是连续的。我想了解为什么 CART 模型的 ROC 曲线不平滑。提前感谢您的帮助。

【问题讨论】:

  • 逻辑回归拟合连续函数。树是离散的。但是,如果您的数据不是平滑的,即使逻辑回归也会产生阶梯状的 ROC 曲线。
  • 我提名这个迁移到 datascience.stackexchange - 这似乎不是一个编程问题。
  • 题外话:迁移到 datascience.stackexchange

标签: r machine-learning classification


【解决方案1】:

原因很简单——决策树中的阈值很清晰,因为这通常是叶子中类的有效比率。如果你有 N 个训练点,那么一片叶子只有 N 个不同的可能比率,因此(最多)N 个可能的分类可以通过移动这个阈值来获得。您可以通过以下方式解决这个问题,最后每个点在落到某个叶子时被分类。在这片叶子中,您有 K 个正样本和 M 个负样本。您根据 K/(M+K) > 阈值分类为正类。 K/(M+K) 可以取多少个不同的值?你的树可以有多少片叶子?最后,这些数字并没有那么大(它们远小于 N),因此大多数阈值根本没有改变。更直观 - 决策树将您的输入空间分成大块。一旦你翻转一个阈值(叶子),一大块就会改变类(颜色)——从而在你的 ROC 曲线中产生很大的跳跃。

对于逻辑回归,您(几乎)总是拥有所有可能性,因为一旦您训练了 w,每个测试/训练点都会有不同的投影(假设它们来自某个连续分布),因此当您在此处移动阈值 (1./(1+exp(+b)) > threshold) 您将获得 N+1 个可能的标签,因为如果您在 w 上可视化您的投影点,它将看起来像:

* *            * * * *    *    *       *      *  *       * *
--------------------------------------------------------------->
<w, x>

根据阈值的选择,您将从 -inf 到阈值的所有内容分类到一个类别,然后再分类到另一个类别(从而创建 N+1 个可能的标签),从而为您提供平滑的 ROC 曲线。

【讨论】:

    猜你喜欢
    • 2018-12-27
    • 2021-05-25
    • 1970-01-01
    • 2018-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-11-25
    相关资源
    最近更新 更多