如何在随机森林中设置我自己的概率阈值？答案

【问题标题】：How to set up my own probabilistic threshold in random forest?如何在随机森林中设置我自己的概率阈值？
【发布时间】：2016-12-31 09:14:22
【问题描述】：

我使用 python 在具有二进制目标类的不平衡数据集上运行随机森林。我想将默认概率阈值 0.5 更改为另一个值以提高召回率和精度。到目前为止，我找不到任何可用于执行此任务的已定义方法或类。任何人都可以请教一种方法还是意味着我应该自己编写代码？干杯

【问题讨论】：

【解决方案1】：

scikit-learn 的 RandomForestClassifier 没有固定的阈值来分配一个类来采样。正如您在RandomForestClassifier.predict 的源代码中所见，它只返回最可能的类。当然你可以使用@thiom 建议的方法，但我很难想象这会提高准确率和召回率。

例如，如果您选择的阈值是 0.7 并且类别概率是 0.6 和 0.4，您分配什么类别？一个都没有？

作为替代方案，您可以尝试使用 RandomForestClassifier 的 class_weight 选项来增加代表性不足的班级的权重。

【讨论】：