【发布时间】:2016-02-23 05:55:40
【问题描述】:
我正在 sklearn 中尝试 k_fold 交叉验证,但对 f1_score 中的 pos_label 参数感到困惑。我知道如果类别不是二进制,则 pos_label 参数与如何处理数据有关。但我对它的意义并没有很好的概念理解——有人对它在概念层面的含义有很好的解释吗?
我已阅读文档,但它们并没有真正帮助。
【问题讨论】:
标签: machine-learning scikit-learn classification
我正在 sklearn 中尝试 k_fold 交叉验证,但对 f1_score 中的 pos_label 参数感到困惑。我知道如果类别不是二进制,则 pos_label 参数与如何处理数据有关。但我对它的意义并没有很好的概念理解——有人对它在概念层面的含义有很好的解释吗?
我已阅读文档,但它们并没有真正帮助。
【问题讨论】:
标签: machine-learning scikit-learn classification
f1 分数是harmonic mean of precision and recall。因此,您需要计算 precision and recall 来计算 f1 分数。这两个度量都是根据“真阳性”(阳性实例分配一个阳性标签)、“假阳性”(阴性实例分配一个阳性标签)等来计算的。
pos_label 参数可让您指定哪个类应被视为“正类”以便进行此计算。
更具体地说,假设您正在尝试构建一个分类器,该分类器在无趣事件的大背景中发现一些罕见事件。一般来说,您关心的只是您如何识别这些罕见的结果;背景标签本身并不有趣。在这种情况下,您可以将pos_label 设置为您感兴趣的课程。如果您关心所有类的结果,f1_score 可能不是合适的指标。
【讨论】: