一般来说，如何解释多标签分类器产生的概率？答案

【问题标题】：Generally, how does one interpret the probabilities produced by a multi-label classifier?一般来说，如何解释多标签分类器产生的概率？
【发布时间】：2016-11-18 20:33:25
【问题描述】：

我见过的大多数事情都只是使用最大概率，这看起来不错，但并没有给你任何自信的迹象。相对概率也应该很重要，对吧？让我解释一下：

对于二元分类器，假设您的类别是 A 和 B。

P(A) = 0.01, P(B) = 0.99 是一个非常强烈地表示'A'的分类结果。

P(A) = 0.6，P(B) = 0.4 是不太可信的“A”分类。

一旦您将类别“C”加入其中，您就可以获得 P(A) = 0.8, P(B) = 0.1, P(C) = 0.1，是强'A'

不过，您也可以获得以下之一：

P(A) = 0.50, P(B) = 0.25, P(C) = 0.25
P(A) = 0.50, P(B) = 0.49, P(C) = 0.01

现在，第一个案例不太自信，但仍会出现“A” 如果 max 是我唯一的标准，那么第二种情况将完全相同，但显然不是。

在情况 1 中，“A”对结果没有那么自信，但它不可能是其他任何东西。在情况 2 中，P(A) 仍然是 0.5，但它与 P(B) 基本相同，这意味着我不应该真的相信观察结果是“A”

是否有一个函数可以捕捉到这种相对置信度的概念？我一直在尝试想出一个解决方案，它不是一个笨拙的 if 语句集合，但还没有想出任何好的东西。

【问题讨论】：

在这两种情况下，P(A) = 0.5，因此您对观察结果的“信念”是“A”是相同的。
在概率意义上，我同意。将分类结果解释为纯粹的概率有意义吗？直觉上，我认为这是分类器在第一种情况下说“如果我必须选择，A 是最有可能的候选者”，而在第二种情况下无法区分 A 和 B
这个问题更适合Cross Validated
并非所有分类器都是概率分类器。除非我们对底层模型有所了解，否则这是无法回答的。如果您使用产生扭曲概率的方法，则需要校准 (en.wikipedia.org/wiki/…)。正如@Tchotchke 提到的，这更适合简历。
This CrossValidated thread 有一些关于将概率转换为置信度度量的信息。

标签： machine-learning classification probability

【解决方案1】：

您可能得到的是支持向量机的概念。在 SVM 分类器中，我们的目标是找到一个超平面，该超平面使从它分离的两组中最接近的示例之间的距离最大化。有关详细信息，请查看维基百科或 SVM 上的任何机器学习文本。在这种方法中，您可以对事物进行分类，使边界具有最大的边距。

对于逻辑回归，我们使用 Softmax 函数，它不是 score(i)/Sum(Score all)。它使用指数函数。这也使概率之间的距离最大化。

一般来说，分类算法的目标是给出答案，特别是对于可能模棱两可的情况。当然，您可以添加一个额外的属性来说明确切的概率是多少，但这通常不是主要目标。

【讨论】：