【发布时间】:2020-07-30 01:20:33
【问题描述】:
我想加深对修剪将如何影响训练集和测试集的准确性的理解。
我目前的理解是它会提高测试集的准确性,因为修剪可以防止树过度拟合。这是正确的想法吗?
修剪将如何影响训练集的准确性?我认为它会降低准确性,但为什么呢?
感谢任何帮助,谢谢!
【问题讨论】:
标签: machine-learning data-mining decision-tree
我想加深对修剪将如何影响训练集和测试集的准确性的理解。
我目前的理解是它会提高测试集的准确性,因为修剪可以防止树过度拟合。这是正确的想法吗?
修剪将如何影响训练集的准确性?我认为它会降低准确性,但为什么呢?
感谢任何帮助,谢谢!
【问题讨论】:
标签: machine-learning data-mining decision-tree
修剪可能会降低训练集的准确性,因为树不会也为训练集学习最佳参数。但是,如果我们不通过设置适当的参数来克服过度拟合,我们最终可能会构建一个无法泛化的模型。
这意味着该模型学习了一个过于复杂的函数,该函数可以完美地预测训练数据,但无法对看不见的数据进行泛化。当我们的训练集较少时,这会成为一个更大的问题,因为该集本身可能不足以代表未来可能出现的新样本。
所以你需要注意这些参数来限制最大深度和叶子的数量,以防止模型过于复杂。
您可能还想了解Bias–variance tradeoff。
【讨论】: