哪个 F1 分数用于语义分割任务？答案

【问题标题】：Which F1-score is used for the semantic segmentation tasks?哪个 F1 分数用于语义分割任务？
【发布时间】：2021-05-12 00:38:10
【问题描述】：

我阅读了一些关于最先进的语义分割模型的论文，在所有这些论文中，作者都使用 F1 分数指标进行比较，但他们没有写出他们是否使用“微”或“宏”版本。

有谁知道使用哪个 F1 分数来描述分割结果，以及为什么作者没有在论文中定义它如此明显？

样本文件：

【问题讨论】：

只有一个 F1 分数。它被定义为准确率和召回率的调和平均值。见the Wikipedia article。您可能正在考虑计算精度和召回率的不同方法？请详细说明您的问题。

【解决方案1】：

只有一个 F-1 分数 - 准确率和召回率的调和平均值。

Macro/Micro/Samples/Weighted/Binary 用于多类/多标签目标的上下文中。如果None，则返回每个班级的分数。否则，这将确定对数据执行的平均类型：

binary: 只报告 pos_label 指定的类的结果。这仅适用于目标 (y_{true,pred}) 是二进制的。

micro：通过统计真阳性、假阴性和假阳性的总数来全局计算指标。

macro：计算每个标签的指标，并找到它们的未加权平均值。这没有考虑标签不平衡。

weighted：计算每个标签的指标，并找到它们的平均加权支持度（每个标签的真实实例数）。这会改变“宏观”以解决标签不平衡问题；它可能导致 F 分数不在精确率和召回率之间。

samples：计算每个实例的指标，并找到它们的平均值（仅对不同于 accuracy_score 的多标签分类有意义）

Segnet 论文在表#5 中分别讨论了不同类别的准确度。所以我认为他们在这种情况下选择了None。

【讨论】：