【发布时间】:2019-03-22 18:04:57
【问题描述】:
分类中错误率的准确定义是什么?为什么 一些研究人员使用错误率而不是准确性来报告他们的结果? 我正在尝试将我的文本分类结果与文献中的其他方法进行比较,但他们使用错误率而不是准确率,我无法找到确切的定义/方程式来找到我的方法的错误率。
【问题讨论】:
标签: machine-learning classification
分类中错误率的准确定义是什么?为什么 一些研究人员使用错误率而不是准确性来报告他们的结果? 我正在尝试将我的文本分类结果与文献中的其他方法进行比较,但他们使用错误率而不是准确率,我无法找到确切的定义/方程式来找到我的方法的错误率。
【问题讨论】:
标签: machine-learning classification
对于分类,您的输出是离散的(就像您将项目放入桶中一样),因此准确度的定义非常简单:
准确度 =(# 分类正确)/(# 分类总数)
错误率同样简单:
错误率 = 1 - 准确率 = 1 - (# 分类正确) / (# 分类总数)
= (# 分类不正确) / (# 分类总数)
请注意,对于具有连续输出的任务来说,事情要复杂得多。如果我不是将物品放入桶中,而是要求模型将物品放在数轴上,那么准确性不再是“正确”和“错误”的问题而是我的模型有多接近正确。这可能是平均接近度、中值接近度等。还有更复杂的度量,主要区别在于随着距离的增加,它们对距离的加权程度。也许稍微偏离一点比偏离很多要好得多,因此Root Mean Square 错误度量是合适的。另一方面,无论是偏离一点还是偏离很多,偏离多一点都可能很糟糕,所以对数误差测量会更好。
回答您问题的最后一部分:在离散情况下,为什么要选择准确度与误差?光学是一回事:“99% 准确” 发送的心理信息与 “错误率为 1%” 不同。此外,准确度从 99% 提高到 99.9% 意味着准确度提高了 1%,但误差从 1% 降低到 0.1% 意味着误差降低了 90%,即使两者表达的是相同的真实世界改变。
否则,可能是个人喜好或写作风格。
编辑:你可能也对this post on the Statistics Stack Exchange感兴趣
【讨论】: