LogisticRegression 预测概率答案

【问题标题】：LogisticRegression prediction probabilityLogisticRegression 预测概率
【发布时间】：2017-10-06 05:03:33
【问题描述】：

我目前正在使用 scikit-learn 的 LogisticRegression 来解决多类分类问题。我决定使用 LogisticRegression，因为我已经阅读了几篇文章，将其描述为就其返回的预测概率而言经过良好校准的算法。

对于分类器的每个结果，我检查其预测概率以及分类观察与训练集中具有相同决策类的其他示例之间的距离。

令我感到惊讶的是，即使某个类的预测置信度超过 90%，余弦相似度度量表明给定示例平均与具有相同类的示例集几乎正交在训练集中。

有人可以提供一些线索，说明为什么会观察到这种差异吗？

我希望对于与同一类的其他观察结果相距甚远的示例，LogisticRegression 算法将返回低预测概率。

【问题讨论】：

【解决方案1】：

逻辑回归/分类将提供与决策边界相关的结果，但不能保证边界同一侧的点（即属于同一类）具有较小的余弦距离（甚至是较小的欧几里得距离） )。

考虑 x-y 平面中的点，其中 y=0 以下的所有点都属于一个类，而上面的所有点都属于另一类。点 (-1000, 1) 和 (1000, 1) 属于同一类，但它们之间的余弦距离较大。另一方面，点 (1000, 1) 和 (1000, -1) 属于不同的类，但余弦距离很小。

【讨论】：