多类模型的准确率、精度和召回率答案

【问题标题】：Accuracy, precision, and recall for multi-class model多类模型的准确率、精度和召回率
【发布时间】：2016-01-09 23:11:28
【问题描述】：

如何从混淆矩阵中计算每个类的 accuracy、precision 和 recall？我正在使用嵌入式数据集 iris；混淆矩阵如下：

prediction   setosa versicolor virginica
setosa         29          0         0
versicolor      0         20         2
virginica       0          3        21

我使用 75 个条目作为训练集和其他用于测试：

iris.train <- c(sample(1:150, 75)) # have selected 75 randomly

【问题讨论】：

标签： r machine-learning confusion-matrix precision-recall

【解决方案1】：

在整个答案中，mat 是您描述的混淆矩阵。

您可以使用以下方法计算和存储准确度：

(accuracy <- sum(diag(mat)) / sum(mat))
# [1] 0.9333333

每个类的精度（假设预测在行上，真实结果在列上）可以通过以下方式计算：

(precision <- diag(mat) / rowSums(mat))
#     setosa versicolor  virginica 
#  1.0000000  0.9090909  0.8750000

如果您想获取特定类的精度，您可以这样做：

(precision.versicolor <- precision["versicolor"])
# versicolor 
#  0.9090909

每个类的召回率（再次假设预测在行上，真实结果在列上）可以通过以下方式计算：

recall <- (diag(mat) / colSums(mat))
#     setosa versicolor  virginica 
#  1.0000000  0.8695652  0.9130435

如果您想召回特定课程，您可以执行以下操作：

(recall.virginica <- recall["virginica"])
# virginica 
# 0.9130435

如果您将真实结果作为行，将预测结果作为列，那么您将翻转精度和召回定义。

数据：

(mat = as.matrix(read.table(text="  setosa versicolor virginica
 setosa         29          0         0
 versicolor      0         20         2
 virginica       0          3        21", header=T)))
#            setosa versicolor virginica
# setosa         29          0         0
# versicolor      0         20         2
# virginica       0          3        21

【讨论】：

是否可以通过应用平均值来给出此类数据的总体 F 分数？
@mlee_jordan 是的，你可以。进一步研究的资源之一是 scikit-learn 手册：scikit-learn.org/stable/modules/…。不过，那里可能有更好、更通用的资源。事实上，如果你计算多类案例的 F 分数，它会自动计算每类分数和平均值。在其他情况下，例如召回率，您可以在计算分数时选择计算微观平均值（计算所有 TP、FN、FP 并计算分数）或宏观平均值（计算每个类别的分数和平均值）。
如何计算单个类的准确率？每个班级都一样吗？
@spacedustpi 有趣的一个！那将是1-(rowSums(mat)+colSums(mat)-2*diag(mat))/sum(mat)。不，每个班级都可能不同。例如，你在这里对 setosa 有完美的准确性（你总是得到“setosa”与“not setosa”正确）。但是，你并不适合其他两个课程。
@josliber 使用此公式，杂色和 virgenica 的准确度得分相同，均为 93.3%，而 setosa 的准确度得分为 100%。总体准确率为 93.3%。我无法理解为什么会这样。你能解释一下吗？