【问题标题】:Confusion with 'confusion matrix' in Weka与 Weka 中的“混淆矩阵”混淆
【发布时间】:2014-07-09 15:38:40
【问题描述】:

我在 LingSpam 数据集上运行 SVM 分类器,我在 WEKA 中有以下混淆矩阵:

如果我们考虑合法->正类和垃圾邮件->负类,那么 True Positives=2405 和 True Negatives=470。

但我对假阴性和假阳性感到困惑。如果您阅读“混淆表”部分here,则似乎 False Positives=11 和 False Negatives=7。但是,如果您阅读here(请使用 Ctrl+F 并搜索“所有这些数字是什么意思?”),似乎 False Positives=7 和 False Negatives=11。

我很困惑 :(。请帮帮我!此外,WEKA 中的 IR_Precision 和 IR_Recall 是什么?是 legal_precision 和 legal_recall 还是 spam_precision 和 spam_recall?

注意:将合法电子邮件视为 POSITIVE 类,将垃圾邮件视为 NEGATIVE 类。

【问题讨论】:

标签: machine-learning weka confusion-matrix


【解决方案1】:

这取决于您将什么定义为“积极”类。 “合法”没有什么特别之处,这意味着它是正类;你可以这样做。

在这里将“垃圾邮件”称为肯定类更为传统,因为它是您正在检测的不寻常属性。在那个解释中,有 470 个真阳性,依此类推。在你的解释中,有 2405 个。两者本身都没有错,但同样,可能更习惯将“垃圾邮件”视为阳性类别。

关于准确率和召回率的答案相同。它适用于正类,但取决于您用作正类的内容。如果您输入这个混淆矩阵,它将寻找“合法”作为正类的精确度和召回率。理想情况下,我会扭转这种情况。

【讨论】:

  • 谢谢肖恩!所以 Weka 报告的 IR_Precision 和 IR_Recall 是合法类的准确率和召回率。但是你还没有告诉我FP和FN。这个矩阵中的FP和FN是什么?问题中有两个链接,如果您会阅读它,FP 和 FN 有两种不同的可能性。
  • FP 和 FN 是混淆矩阵中右上角和左下角的条目。 一旦你定义什么是“积极的”就不是模棱两可了!没有天生的积极阶级。如果您将狗与猫进行分类——这是积极的吗?答案是你选择的任何一个是肯定的。在这里,您选择“合法”是积极的。这很好,但不传统。但考虑到这种选择,这绝不是模棱两可的。
  • 在第一个链接中,猫被视为正类,其他动物或狗被视为负类。 FP 是左下角,FN 是右上角的入口! (与你所说的相反!)而在链接 2 中,FP 和 FN 分别是右上角和左下角的条目(如你所说),a 是正类,b 是负类。这才是我真正的困惑!
  • 另外,查看Weka Experimenter的结果后,左上角的值为FN,右下角的值为FP!我现在真的很困惑!此外,我在谷歌搜索时在某处读到 Weka 在混淆矩阵中给出的关于 TP、FP 等的结果有些模糊......请指导我
  • 不确定,但是在您在问题中发布的内容中,“真实”单元格绝对是左上角和右下角。因为这就是预测 = 实际。
【解决方案2】:

首先,如果您仔细查看有关垃圾邮件分类问题的研究文章,几乎所有文章都将垃圾邮件定义为正例,将火腿定义为负例。在你的情况下,情况正好相反。因此,它有机会混淆读者。

但是,Weka 混淆矩阵完全没问题。以下是根据经典垃圾邮件分类任务的正面和负面定义:

True positives: original label spam, predicted label spam (very good)
False positives: original label ham, predicted label spam (very dangerous)
False negatives: original label spam, predicted label ham (less dangerous)
True negatives: original label hams, predicted labels ham (very good)

在您的情况下(如果您想与经典垃圾邮件分类任务中所说的进行比较),

True positives: 470
False positives: 7
False negatives: 11
True negatives: 2405

只需将混淆矩阵倒置即可以这种方式阅读它们。我认为主要的困惑来自你对积极和消极的定义。

希望对您有所帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-01-09
    • 2015-12-17
    • 2020-10-01
    • 2012-01-20
    • 2019-11-23
    • 1970-01-01
    • 1970-01-01
    • 2022-07-07
    相关资源
    最近更新 更多