我们可以使用 F-measure、precision、recall 和排名检索结果吗？答案

【问题标题】：Can we use F-measure, precision, recall, with ranked retrieval results?我们可以使用 F-measure、precision、recall 和排名检索结果吗？
【发布时间】：2018-08-26 20:31:18
【问题描述】：

我正在使用 Indri 和 TrecEval，我想知道我们是否可以使用 F-measure、precision、recall 和排名检索结果。

如果是，F-measure... 是什么意思？这些值是否具有某种相关性，例如用于评估查询是否接近语料库？

我知道 MAP 值用于评估排名结果。但我想知道 F-measure... 是否对其他东西有用。我在这里很困惑，我进行了研究，但有些东西我没有得到。

感谢您的帮助。

【问题讨论】：

标签： information-retrieval evaluation precision-recall indri

【解决方案1】：

Precision、Recall 和 F1 是基于集合的度量。这意味着他们对一组文档进行评分，而不是排名。

我们通常在固定数量的顶级文档上评估此类度量：5,10,20,50,100,500,1000。然后我们可以绘制一条曲线，它以某种方式向我们展示了整个排名。

或者你会在 20 时谈论精确度/召回率，例如在大多数界面的结果的前两页中。 F1 在 IR 上的使用并不多，因为我们的排名衡量标准无论如何都会平衡这些（AP、NDCG 等）。

F1@20 会根据您的排名，为您提供一个代表最佳 10 个文档中召回率和精度的几何平均值的数字。

【讨论】：

首先，感谢您的回答。如果我得到它，基本上 Precision 会说“我检索到的文档中有多少相关文档”？ MAP 何时更有可能“这些相关文档是否排在第一页”？怎么可能是 P10 会这么说？
MAP 询问“召回点的平均精度是多少？” - 大致是 - 所有相关文件的排名有多早？ P@10 询问“我在前 10 名中找到了多少相关文件”？ R@10 询问“我在前 10 名中找到的全部相关文档的比例是多少”。