【问题标题】:Is it possible to obtain class probabilities using GradientBoostedTrees with spark mllib?是否可以使用带有 spark mllib 的 GradientBoostedTrees 获得类概率?
【发布时间】:2016-03-16 11:28:57
【问题描述】:

我目前正在使用 spark mllib。

我使用 GradientBoostedTrees 类的 Gradient Boosting 算法创建了一个文本分类器:

Gradient Boosted Trees

目前我获得预测以了解新元素的类别,但我想获得类别概率(硬决策之前的输出值)。

在逻辑回归等其他 mllib 算法中,您可以从分类器中移除阈值以获得类概率,但我找不到使用 GradientBosstedTrees 执行相同过程的方法。

【问题讨论】:

    标签: apache-spark predict apache-spark-mllib


    【解决方案1】:

    据我所知,目前不可能,但随机森林可以。

    【讨论】:

      【解决方案2】:

      你可以看到这个链接...我在这里解释了一个过程 Predicting probabilities of classes in case of Gradient Boosting Trees in Spark using the tree output

      为了实现预测的概率和阈值,需要使用来自

      的树编写程序
      print(model.toDebugString)
      

      输出。我试图了解树是如何工作的,以预测在 Spark 之外哪个相当简单。

      【讨论】:

        【解决方案3】:

        似乎在 Spark MLLIB 中无法获得类概率。

        您只能获得最终的分类决策。

        很遗憾,因为该信息将非常有用(如果您将样本分类为阳性,99.99% 的可能性与 51% 不同),并且一旦模型经过训练,获取该信息并不难。

        另一种方法是使用不同的软件,例如 xgboost:https://github.com/dmlc/xgboost

        【讨论】:

          猜你喜欢
          • 2016-01-28
          • 2015-10-28
          • 1970-01-01
          • 2019-06-29
          • 2015-06-19
          • 2016-09-04
          • 2023-03-08
          • 2015-11-05
          • 2021-01-11
          相关资源
          最近更新 更多