【问题标题】:Which F1-score is used for the semantic segmentation tasks?哪个 F1 分数用于语义分割任务?
【发布时间】:2021-05-12 00:38:10
【问题描述】:

我阅读了一些关于最先进的语义分割模型的论文,在所有这些论文中,作者都​​使用 F1 分数指标进行比较,但他们没有写出他们是否使用“微”或“宏”版本。

有谁知道使用哪个 F1 分数来描述分割结果,以及为什么作者没有在论文中定义它如此明显?

样本文件:

https://arxiv.org/pdf/1709.00201.pdf

https://arxiv.org/pdf/1511.00561.pdf

【问题讨论】:

  • 只有一个 F1 分数。它被定义为准确率和召回率的调和平均值。见the Wikipedia article。您可能正在考虑计算精度和召回率的不同方法?请详细说明您的问题。

标签: computer-vision semantic-segmentation


【解决方案1】:

只有一个 F-1 分数 - 准确率和召回率的调和平均值。

Macro/Micro/Samples/Weighted/Binary 用于多类/多标签目标的上下文中。如果None,则返回每个班级的分数。否则,这将确定对数据执行的平均类型:

binary: 只报告 pos_label 指定的类的结果。这仅适用于目标 (y_{true,pred}) 是二进制的。

micro:通过统计真阳性、假阴性和假阳性的总数来全局计算指标。

macro:计算每个标签的指标,并找到它们的未加权平均值。这没有考虑标签不平衡。

weighted:计算每个标签的指标,并找到它们的平均加权支持度(每个标签的真实实例数)。这会改变“宏观”以解决标签不平衡问题;它可能导致 F 分数不在精确率和召回率之间。

samples:计算每个实例的指标,并找到它们的平均值(仅对不同于 accuracy_score 的多标签分类有意义)

Segnet 论文在表#5 中分别讨论了不同类别的准确度。所以我认为他们在这种情况下选择了None

【讨论】:

    猜你喜欢
    • 2019-11-15
    • 2020-01-22
    • 2018-01-12
    • 2017-03-16
    • 1970-01-01
    • 2018-11-04
    • 2020-05-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多