决策树交叉验证问题

【问题标题】：Decision trees Cross Validation questions决策树交叉验证问题
【发布时间】：2013-01-24 06:10:15
【问题描述】：

所以我正在编写一个决策树程序。假设我有一个包含 1000 个实例的数据集。据我了解 - 通过交叉验证，我将数据集分成 900-100 个组。每一次使用不同的 900 集创建树并使用 100 集进行测试

我不明白的是这些问题： 1. 我用哪棵树作为我的最终决策树（选择误差最小的那棵不是一个好选择，因为我猜这可能是因为过度拟合） 2. 交叉验证是否仅用于估计最终树中的误差？ 3. 我发现了一些关于交叉验证的不同算法，一些使用相同的分割标准，还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方，这样我就可以准确地弄清楚我是什么需要？或者解释一下你自己？

谢谢！

【问题讨论】：

标签： tree data-mining decision-tree cross-validation

【解决方案1】：

Cross validation 用于估计您的模型预测的准确度。

最好的树应该包含最好的分类器。即很好地分离数据的属性，因此您可以使用该属性开始构建决策树。

我建议您搜索Wikipedia 和Uncle Google 以获取有关decision trees 的更多信息

【讨论】：

我知道最好的树应该包含能够很好地分离数据的最佳属性。这就是决策树的重点。有很多方法可以决定哪个属性最好（即增益比率、信息增益、基尼指数等） - 我的问题是 - 交叉验证如何帮助我（如果有的话）选择我决定拆分的方式标准
stackoverflow.com/questions/2314850/…