【问题标题】:When are precision and recall inversely related?准确率和召回率何时成反比?
【发布时间】:2014-10-07 11:10:09
【问题描述】:

我正在阅读机器学习中的精度和召回率。

问题 1:准确率和召回率何时呈负相关?也就是说,什么时候会出现可以提高精度但代价是召回率降低的情况,反之亦然? Wikipedia article 声明:

通常,准确率和召回率之间存在反比关系, 有可能以减少为代价增加一个 其他。脑外科手术提供了一个明显的权衡例子。

但是,我看到研究实验结果表明精确度和召回率同时提高(例如,当您使用不同或更多特征时)。

反比关系在什么场景下成立?

问题 2:我熟悉两个领域的精确率和召回率概念:信息检索(例如“从 1MM 页面语料库中返回 100 个最相关的页面”)和二进制分类(例如“将这 100 名患者中的每一个都归类为患有或不患有这种疾病”)。准确率和召回率在这两个或其中一个领域是否呈负相关?

【问题讨论】:

  • 维基百科的文章说Often, there is an inverse relationship。这意味着不是always,只是often。您可以将标题更改为“准确率和召回率何时成反比?”
  • 谢谢。做出改变。

标签: machine-learning classification data-mining information-retrieval


【解决方案1】:

只有当系统中有一些参数可以改变以获得更多/更少的结果时,反比关系才成立。然后有一个简单的关系:您降低阈值以获得更多结果,其中一些是 TP 和一些 FP。实际上,这并不总是意味着准确率或召回率会同时上升和下降 - 可以使用ROC curve 映射真正的关系。对于 Q2,同样,在这两个任务中,准确率和召回率不一定是负相关的。

那么,您如何提高召回率或准确率,而不同时影响另一个?通常,通过改进算法或模型。 IE。当您仅更改给定模型的参数时,通常会保持反比关系,尽管您应该注意它通常也是非线性的。但是,例如,如果您向模型添加更多描述性特征,您可以同时增加这两个指标。

【讨论】:

  • 非常感谢。您声明如果您可以限制返回的结果数量,则可能会出现反比关系。在 Q2 中,信息检索问题完全符合这个描述,但二元分类问题通常不符合,对吧?例如,对于任何给定的患者,您需要diseaseno disease,或者对于任何给定的电子邮件,您需要spamnot spam。所以对于一些分类任务,你分类 100% 的测试数据,所以不存在反比关系。我说的对吗?
  • 不完全限制,而是根据某个阈值更改结果的数量 - 但基本上是正确的。而且,是的,至于你提到的二元分类问题,真的,在这里处理简单的准确性,即精度与召回率相同。因为这两种度量的分母是相同的——要分类的案例总数。
【解决方案2】:

关于第一个问题,我根据您的结果的限制程度来解释这些概念

如果您更严格,我的意思是,如果您对结果的正确性要求更高,您希望它更精确。为此,只要你得到的一切都是正确的,你可能愿意拒绝一些正确的结果。因此,您提高了精度并降低了召回率。相反,如果你不介意得到一些不正确的结果,只要你得到所有正确的结果,你就会提高你的召回率并降低你的精确度。

关于第二个问题,如果我从以上段落的角度来看,我可以说是的,它们是反向相关的。

据我所知,为了能够同时提高准确率和召回率,您需要更好的模型(更适合您的问题)或更好的数据(或两者兼而有之,实际上)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-12-17
    • 1970-01-01
    • 2020-03-26
    • 2019-07-28
    • 2016-06-19
    • 2016-01-09
    • 2015-12-05
    • 2021-02-22
    相关资源
    最近更新 更多