是否可以使用带有 spark mllib 的 GradientBoostedTrees 获得类概率？答案

【问题标题】：Is it possible to obtain class probabilities using GradientBoostedTrees with spark mllib?是否可以使用带有 spark mllib 的 GradientBoostedTrees 获得类概率？
【发布时间】：2016-03-16 11:28:57
【问题描述】：

我目前正在使用 spark mllib。

我使用 GradientBoostedTrees 类的 Gradient Boosting 算法创建了一个文本分类器：

Gradient Boosted Trees

目前我获得预测以了解新元素的类别，但我想获得类别概率（硬决策之前的输出值）。

在逻辑回归等其他 mllib 算法中，您可以从分类器中移除阈值以获得类概率，但我找不到使用 GradientBosstedTrees 执行相同过程的方法。

【问题讨论】：

标签： apache-spark predict apache-spark-mllib

【解决方案1】：

据我所知，目前不可能，但随机森林可以。

【讨论】：

【解决方案2】：

你可以看到这个链接...我在这里解释了一个过程 Predicting probabilities of classes in case of Gradient Boosting Trees in Spark using the tree output

为了实现预测的概率和阈值，需要使用来自

的树编写程序

print(model.toDebugString)

输出。我试图了解树是如何工作的，以预测在 Spark 之外哪个相当简单。

【讨论】：

【解决方案3】：

似乎在 Spark MLLIB 中无法获得类概率。

您只能获得最终的分类决策。

很遗憾，因为该信息将非常有用（如果您将样本分类为阳性，99.99% 的可能性与 51% 不同），并且一旦模型经过训练，获取该信息并不难。

另一种方法是使用不同的软件，例如 xgboost：https://github.com/dmlc/xgboost

【讨论】：