【问题标题】:Confidence vs Probability in Random Forest Algorithm in scikit-learn using Python使用 Python 的 scikit-learn 中随机森林算法的置信度与概率
【发布时间】:2018-01-30 07:58:00
【问题描述】:

我一直在尝试使用scikit-learn 运行随机森林分类器。我想了解概率和置信度之间的区别。假设我们有 5 个类 A,B,C,D,E 。现在,如果我运行predict_proba() 并获得 A 类的匹配项,则返回的概率是它在 5 个类中属于 A 类的概率吗?这意味着如果它的 A 类概率为 0.95,那么剩余的 0.05 将与剩余的类共享?如果是这种情况,我想了解是否有办法获得预测的置信度,这意味着分类器以 0.95 的概率预测 A 类的置信度有多大?有这样的机制吗?

我想理解这一点的原因是因为假设我输入的分类数据不属于 5 个类别中的任何一个,我想扔掉它不属于这 5 个类别中的任何一个类。我觉得分类器目前会尝试将它放入 5 个类中的一个,并且可能返回一个高概率?即使它对此没有信心?

谢谢!

【问题讨论】:

  • 对我来说,这似乎属于criss validated,因为问题实际上与编程无关。

标签: python machine-learning scikit-learn random-forest


【解决方案1】:

概率不是置信区间。

要添加置信区间,您需要使用此扩展程序http://contrib.scikit-learn.org/forest-confidence-interval/

【讨论】:

  • 感谢您的回复德克。我看到 random_forest_error() 返回 variance 并且示例显示它使用 variance 计算标准偏差。那么标准差越低,正确的置信度越高?
猜你喜欢
  • 2012-12-20
  • 2015-09-16
  • 2019-03-25
  • 2017-03-26
  • 2012-10-24
  • 2017-12-10
  • 2015-03-28
  • 2013-04-26
  • 2022-01-12
相关资源
最近更新 更多