【发布时间】:2017-10-06 05:03:33
【问题描述】:
我目前正在使用 scikit-learn 的 LogisticRegression 来解决多类分类问题。我决定使用 LogisticRegression,因为我已经阅读了几篇文章,将其描述为就其返回的预测概率而言经过良好校准的算法。
对于分类器的每个结果,我检查其预测概率以及分类观察与训练集中具有相同决策类的其他示例之间的距离。
令我感到惊讶的是,即使某个类的预测置信度超过 90%,余弦相似度度量表明给定示例平均与具有相同类的示例集几乎正交在训练集中。
有人可以提供一些线索,说明为什么会观察到这种差异吗?
我希望对于与同一类的其他观察结果相距甚远的示例,LogisticRegression 算法将返回低预测概率。
【问题讨论】:
标签: machine-learning scikit-learn multiclass-classification