【发布时间】:2013-01-24 06:10:15
【问题描述】:
所以我正在编写一个决策树程序。 假设我有一个包含 1000 个实例的数据集。 据我了解 - 通过交叉验证,我将数据集分成 900-100 个组。每一次 使用不同的 900 集创建树并使用 100 集进行测试
我不明白的是这些问题: 1. 我用哪棵树作为我的最终决策树(选择误差最小的那棵不是一个好选择,因为我猜这可能是因为过度拟合) 2. 交叉验证是否仅用于估计最终树中的误差? 3. 我发现了一些关于交叉验证的不同算法,一些使用相同的分割标准,还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方,这样我就可以准确地弄清楚我是什么需要?或者解释一下你自己?
谢谢!
【问题讨论】:
标签: tree data-mining decision-tree cross-validation