成本复杂性修剪：修剪错误答案

【问题标题】：Cost Complexity Pruning: Pruned error成本复杂性修剪：修剪错误
【发布时间】：2018-03-07 18:45:30
【问题描述】：

谁能解释一下这两种说法：

在成本复杂性修剪中，修剪后的树错误永远不会小于训练数据集上的原始树。

在成本复杂性修剪中，修剪后的树错误永远不会小于验证数据集上的原始树。

第一句是对的，第二句是假的。

【问题讨论】：

【解决方案1】：

这适用于您选择的任何修剪策略，前提是构建原始树以最小化训练集中的错误。

真：修剪后的树误差永远不会小于训练数据集上的原始树。

原始树尽可能具体，通过用叶子节点替换子树，只能得到不那么具体的树。因此，训练数据中的误差可以保持不变，也可以增加，永远不会减少。

错误：修剪后的树错误永远不会小于验证数据集上的原始树。

我们假设验证集是未知的并且独立于训练数据集。因此，作为一般规则，您不能做出任何此类假设。剪枝时，验证数据集上的误差可以增加、保持不变或减少。

但是，我们希望误差会减少，因为树将变得不那么特定于训练数据，因此更有可能与不同的数据集兼容。

【讨论】：