修剪决策树对测试集和训练集准确性的影响

【问题标题】：Effects of pruning a decision tree on the accuracy of the test set and training set修剪决策树对测试集和训练集准确性的影响
【发布时间】：2020-07-30 01:20:33
【问题描述】：

我想加深对修剪将如何影响训练集和测试集的准确性的理解。

我目前的理解是它会提高测试集的准确性，因为修剪可以防止树过度拟合。这是正确的想法吗？

修剪将如何影响训练集的准确性？我认为它会降低准确性，但为什么呢？

感谢任何帮助，谢谢！

【问题讨论】：

标签： machine-learning data-mining decision-tree

【解决方案1】：

修剪可能会降低训练集的准确性，因为树不会也为训练集学习最佳参数。但是，如果我们不通过设置适当的参数来克服过度拟合，我们最终可能会构建一个无法泛化的模型。

这意味着该模型学习了一个过于复杂的函数，该函数可以完美地预测训练数据，但无法对看不见的数据进行泛化。当我们的训练集较少时，这会成为一个更大的问题，因为该集本身可能不足以代表未来可能出现的新样本。

所以你需要注意这些参数来限制最大深度和叶子的数量，以防止模型过于复杂。

您可能还想了解Bias–variance tradeoff。

【讨论】：