【问题标题】:Decision trees Cross Validation questions决策树交叉验证问题
【发布时间】:2013-01-24 06:10:15
【问题描述】:

所以我正在编写一个决策树程序。 假设我有一个包含 1000 个实例的数据集。 据我了解 - 通过交叉验证,我将数据集分成 900-100 个组。每一次 使用不同的 900 集创建树并使用 100 集进行测试

我不明白的是这些问题: 1. 我用哪棵树作为我的最终决策树(选择误差最小的那棵不是一个好选择,因为我猜这可能是因为过度拟合) 2. 交叉验证是否仅用于估计最终树中的误差? 3. 我发现了一些关于交叉验证的不同算法,一些使用相同的分割标准,还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方,这样我就可以准确地弄清楚我是什么需要?或者解释一下你自己?

谢谢!

【问题讨论】:

    标签: tree data-mining decision-tree cross-validation


    【解决方案1】:

    Cross validation 用于估计您的模型预测的准确度

    最好的树应该包含最好的分类器。即很好地分离数据的属性,因此您可以使用该属性开始构建决策树。

    我建议您搜索WikipediaUncle Google 以获取有关decision trees 的更多信息

    【讨论】:

    • 我知道最好的树应该包含能够很好地分离数据的最佳属性。这就是决策树的重点。有很多方法可以决定哪个属性最好(即增益比率、信息增益、基尼指数等) - 我的问题是 - 交叉验证如何帮助我(如果有的话)选择我决定拆分的方式标准
    猜你喜欢
    • 1970-01-01
    • 2016-05-07
    • 2021-05-27
    • 1970-01-01
    • 2011-01-19
    • 2019-03-25
    • 2019-09-12
    • 2017-11-24
    • 2016-05-05
    相关资源
    最近更新 更多