最大熵分类中的“共识”答案

【问题标题】："Consensus" Among Maximum Entropy Classifications最大熵分类中的“共识”
【发布时间】：2013-12-25 08:02:57
【问题描述】：

假设我们有三个类：A、B 和 C，我们使用标准 MaxEnt 分类器对文档“d”进行分类，并得出以下概率：

P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25

我觉得这在某种程度上与这组概率非常不同：

P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01

有没有办法对这两者之间的差异进行评分？

【问题讨论】：

【解决方案1】：

您面临的问题通常被称为分类器之间的“共识”。由于多标签 MaxEnt 可以看作是 N 个独立的分类器，您可以将其视为一组为不同类别“投票”的模型。

现在，计算这种“共识”的方法有很多，包括：

一般来说，您应该考虑检测结果分布的“均匀性”（意味着不太自信的决定）或“尖峰”（表示更有信心的分类）的方法。

【讨论】：

+1 表示熵。有趣的事实：Max Ent 分类器之所以这样称呼，是因为它们试图在尊重训练数据的同时最大化 P(output|input) 的熵。在某种程度上，分类器试图找到与训练数据一致的最无偏概率分布。
均匀性是错误的——糟糕的概率模型通常会提供非常尖锐的后验，这完全是不正确的。您需要通过交叉熵（如您建议的 KL Divergence）引用正确的后验，以确保您的分布是正确的。毕竟，统一的后验可能实际上是准确的......

【解决方案2】：

您正在寻找的是交叉熵：具体而言，您想要计算使用分类器输出的一个近似真实分布的成本。在许多情况下，概率多类分类器会直接对此进行优化。看看this。

【讨论】：