【发布时间】:2021-02-11 20:44:09
【问题描述】:
from sklearn import ensemble
model = ensemble.RandomForestClassifier(n_estimators=10)
model.fit(x,y)
predictions = model.predict(new)
我知道 predict() 使用 predict_proba() 通过计算森林中树木的预测类别概率的平均值来获得预测。
我想得到predict_proba() 方法预测的类的predict() 方法的结果。
我正在做的是:首先像上面的代码一样调用predict(),对于概率,我从树中提取最大概率,如下所示:
all_probabilities = model.predict_proba()
class_probabilities = np.array([])
for tree in all_probabilities:
class_probabilites = np.append(class_probabilities, tree.max())
这是正确的吗?如果不是,如何提取预测类别的概率?
【问题讨论】:
-
您确定要这样做吗?因为,从建模的角度来看,这没有多大意义——当我们在二进制情况下得到一个概率值,比如说,
0.7,我们想确定这意味着“0.7 属于第 1 类的概率";根据您的描述,情况将不再如此,0.7 可能意味着“0.7 类 1 的概率”或“0.7 类 0 的概率”,其中,如前所述,没有任何意义。 -
@desertnaut 在我的例子中,我想预测大约 1000 个类。我想要概率,以便将它们与来自不同学习方法的不同模型的置信度进行比较,并选择置信度最高的预测。
-
那么,下面的答案就是你要找的。span>
标签: python machine-learning scikit-learn random-forest