Weka 预测（百分比置信度） - 这是什么意思？答案

【问题标题】：Weka prediction (percentage confidence) - what does it mean?Weka 预测（百分比置信度） - 这是什么意思？
【发布时间】：2012-06-20 12:07:53
【问题描述】：

我一直在自学 Weka，并学会了如何构建模型并从中获得预测（使用 CLI 进行预测）。

当我对来自先前构建的模型的数据集运行预测时，我会得到一个列，该列是“预测”，也称为每个预测实例的预测置信度。

我知道百分比置信度意味着什么，但我的所有预测不应该是我的 Weka 模型的准确性吗？

如果我有一个准确率为 90% 的 J48 决策树分类器，那么使用此模型的每个分类实例不应该是 90% 的预测置信度吗？

任何人都知道这个百分比置信度是如何计算的，或者在告诉别人我的模型时我应该如何阅读错误预测和模型准确性？谢谢

【问题讨论】：

【解决方案1】：

基本上，当决策树在数据集上进行训练时，您通常希望（或由于缺少特征不得不）在它过度拟合每个训练实例之前停止它。发生这种情况时，您将在树的叶节点处有几个训练样本。很多时候训练标签仍然会在那个时候混合（不是所有的正类也不是所有的负类。）

置信度是在树下到该训练实例的叶子时训练标签的一致性程度的某种度量。

编辑：请注意，这也用于以干净和公正的方式处理缺失的特征（属性）。

还请查看 Quinlan 在决策树方面的一些工作。特别是他在 C4.5 方面的工作

另外：“我知道百分比置信度意味着什么，但我的所有预测不应该是我的 Weka 模型的准确性吗？”

不，这不是真的，一些训练样本比其他样本更容易分类，这些分数反映了这一点。

【讨论】：

谢谢，感谢您的帮助。不幸的是，在我成为会员（刚刚申请）之前，我无法阅读链接。虽然我对“一致”这个词有点困惑。我想我需要多读一点决策树的数学知识。
是的，一定要这样做。尝试阅读有关ID3 trees 的内容开始，您将了解大部分概念。 C4.5 和 J48 大多只是增加了剪枝的概念。作为旁注，我的经验是信息增益树比基尼杂质树更有效。