聚合精确召回曲线和精确召回曲线之间的差异答案

【问题标题】：Difference between Aggregate Precision-Recall curves and Precision-Recall curves聚合精确召回曲线和精确召回曲线之间的差异
【发布时间】：2017-09-21 09:10:31
【问题描述】：

在信息检索的背景下，this one 等一些论文讨论了聚合精确召回曲线（参见图 3）。这些曲线和 Precision-Recall 曲线有什么区别？这篇论文的作者似乎对两者有所区别，因为他们将图 4 中显示的曲线描述为 Precision-Recall 曲线，而不是 Aggregate Precision-Recall 曲线（参见第 4.5 节）

【问题讨论】：

标签： text-mining information-retrieval precision-recall

【解决方案1】：

汇总与非汇总 P&R 曲线

一般来说，精确召回曲线和聚合精确召回曲线之间存在差异。您通常会为给定系统的单个查询（本文中的查询 = 实体）创建精确召回曲线 - 通过划分排名并计算每个点的准确率和召回率，您可以绘制这条曲线。

当您有几百个查询（实体）时，这在论文中很常见，您无法显示几百个图表（人类也无法解释它们......），所以您所做的就是以某种方式平均曲线。他们在这项工作中将此称为“聚合”精度召回曲线。不幸的是，他们没有指定他们的聚合方法，但假设他们使用平均值是合理的，这对于这些曲线来说是非常典型的。我想提一下我在这种情况下使用的软件包，因为很难准确地知道如何跨查询对召回进行分组。

关于您的更具体的问题（关于图 3 和图 4）：

它们实际上并没有对本文中的图 3 和图 4 产生影响；他们对图 4 的引用不够精确。在第 4.1 节（数据集和评估指标）的最后，他们提到他们

在我们的实验中报告聚合曲线精度/召回曲线和 Precision@N (P@N)

这是典型的论文惯例。除非另有特别说明，否则您可以假定图表和度量值是指在像这样的设置部分中描述的那些。

【讨论】：

所以你说我们有每个关系的精度和召回值列表（该列表由检索到的关系数参数化），并且 PR 曲线中的每个点都是平均值关系的精度和召回率？
是的，通常这意味着聚合。如果他们做了一些更奇怪的事情，唯一的后备（鉴于论文中并不清楚）就是给作者发电子邮件。

【解决方案2】：

考虑了多种关系。对于它们中的每一个，我们根据置信度分数（编码在网络输出中）对从测试集中发现的实例进行排序，并报告精度和召回值。一旦对所有关系类型完成此操作，就会对精度和召回曲线进行平均，因此最终我们只有一个由检索次数参数化的精度召回值列表。论文中没有明确说明平均值是如何计算的。这个列表的图就是所谓的聚合精确召回曲线。感谢@John Foley！

【讨论】：