Weka 中数据汇总错误与树可视化之间的不平衡答案

【问题标题】：Imbalance between errors in data summary and tree visualization in WekaWeka 中数据汇总错误与树可视化之间的不平衡
【发布时间】：2017-11-11 15:35:59
【问题描述】：

我尝试使用 J48 算法在 Weka 中的 iris.arff 数据集上运行一个简单的分类。我使用了 10 折的交叉验证，并且 - 如果我没记错的话 - J48 的所有默认设置。结果是 6 个错误分类实例的准确率为 96%。

这是我的问题：根据this，树可视化中的第二个数字是每个叶子中错误分类实例的数量，但是为什么它们的总和不是 6 而是 3？

编辑：使用不同的测试选项运行算法我在准确性（以及因此错误的数量）方面获得不同的结果，但是当我可视化树时，我总是得到相同的树，但有相同的 3 个错误。我仍然无法解释为什么。

【问题讨论】：

标签： weka j48

【解决方案1】：

树形可视化中的第二个数字不是每个叶子中错误分类实例的数量 - 它是那些错误分类实例的总权重。您是否有机会用 0.5 而不是 1 来衡量其中一些实例？

另一种选择是您实际上正在执行两个不同的模型。一种是使用完整的训练集来构建分类器（classifier.buildClassifier(instances)），另一种是使用 10 个训练/测试折叠运行交叉验证（eval.crossValidateModel(...)）。第一个模型将生成具有较少错误的可视化树（更大的训练集），而来自 CV 的第二个模型将生成具有更多错误的输出统计信息。这可以解释为什么您在更改测试集时得到不同的统计信息，但仍然是在完整集上构建的同一棵树。

郑重声明：如果您使用完整数据集训练（并可视化）树，您的错误似乎会更少，但您的模型实际上会过度拟合，并且获得的性能指标可能不切实际。因此，您从 CV 获得的结果更加有用，您应该可视化来自该模型的树。

【讨论】：