【问题标题】:Imbalance between errors in data summary and tree visualization in WekaWeka 中数据汇总错误与树可视化之间的不平衡
【发布时间】:2017-11-11 15:35:59
【问题描述】:

我尝试使用 J48 算法在 Weka 中的 iris.arff 数据集上运行一个简单的分类。我使用了 10 折的交叉验证,并且 - 如果我没记错的话 - J4​​8 的所有默认设置。 结果是 6 个错误分类实例的准确率为 96%。

这是我的问题:根据this,树可视化中的第二个数字是每个叶子中错误分类实例的数量,但是为什么它们的总和不是 6 而是 3?



编辑:使用不同的测试选项运行算法我在准确性(以及因此错误的数量)方面获得不同的结果,但是当我可视化树时,我总是得到相同的树,但有相同的 3 个错误。我仍然无法解释为什么。

【问题讨论】:

    标签: weka j48


    【解决方案1】:

    树形可视化中的第二个数字不是每个叶子中错误分类实例的数量 - 它是那些错误分类实例的总权重。 您是否有机会用 0.5 而不是 1 来衡量其中一些实例?

    另一种选择是您实际上正在执行两个不同的模型。一种是使用完整的训练集来构建分类器(classifier.buildClassifier(instances)),另一种是使用 10 个训练/测试折叠运行交叉验证(eval.crossValidateModel(...))。第一个模型将生成具有较少错误的可视化树(更大的训练集),而来自 CV 的第二个模型将生成具有更多错误的输出统计信息。这可以解释为什么您在更改测试集时得到不同的统计信息,但仍然是在完整集上构建的同一棵树。

    郑重声明:如果您使用完整数据集训练(并可视化)树,您的错误似乎会更少,但您的模型实际上会过度拟合,并且获得的性能指标可能不切实际。因此,您从 CV 获得的结果更加有用,您应该可视化来自该模型的树。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-06-19
      • 2012-02-28
      • 2012-12-28
      • 2021-08-04
      • 1970-01-01
      • 1970-01-01
      • 2017-03-17
      • 1970-01-01
      相关资源
      最近更新 更多