【问题标题】:Cost Complexity Pruning: Pruned error成本复杂性修剪:修剪错误
【发布时间】:2018-03-07 18:45:30
【问题描述】:

谁能解释一下这两种说法:

在成本复杂性修剪中,修剪后的树错误永远不会小于训练数据集上的原始树。

在成本复杂性修剪中,修剪后的树错误永远不会小于验证数据集上的原始树。

第一句是对的,第二句是假的。

【问题讨论】:

    标签: machine-learning pruning


    【解决方案1】:

    这适用于您选择的任何修剪策略,前提是构建原始树以最小化训练集中的错误。

    真:修剪后的树误差永远不会小于训练数据集上的原始树。

    原始树尽可能具体,通过用叶子节点替换子树,只能得到不那么具体的树。因此,训练数据中的误差可以保持不变,也可以增加,永远不会减少。

    错误:修剪后的树错误永远不会小于验证数据集上的原始树。

    我们假设验证集是未知的并且独立于训练数据集。因此,作为一般规则,您不能做出任何此类假设。剪枝时,验证数据集上的误差可以增加、保持不变或减少。

    但是,我们希望误差会减少,因为树将变得不那么特定于训练数据,因此更有可能与不同的数据集兼容。

    【讨论】:

    • 感谢您的澄清。我不能投票,因为我的声誉低于 15。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-10-09
    • 2016-03-01
    • 1970-01-01
    • 1970-01-01
    • 2010-12-24
    相关资源
    最近更新 更多