【问题标题】:Comparing predicted probabilities from multinomial models in h2o gbm比较 h2o gbm 中多项式模型的预测概率
【发布时间】:2021-06-22 14:27:40
【问题描述】:

我运行了一个 h2o 梯度提升分类器模型来预测三个类别 0,1 和 2 的概率。训练数据中存在严重的类别不平衡 (93:5:2)。

虽然在混淆矩阵中无法正确预测单个类 1 和 2(如预期的那样),但 AUC 对于这些类单独来说是不错的。

我打算手动预测最终的类

我的理解是生成的概率(P0、P1 和 P2)经过校准并且总和为 1。

由于 h2o 中的多项式模型本质上是一对多的方法,但分数总和为 1,添加或比较概率是否正确?

所以如果 P0 = 0.40 , P1 =0.35 和 P2=0.25,则预测类别将为 0(基于最大概率)

  1. 这是否意味着 P(1,2) = 0.6 还是 p(不是 0) = 0.6? (因为 0 类的模型实际上是 0 对所有其他类

  2. 然后我可以比较 1&2 的概率并说 P1 (0.35) > P2 (0.25),所以预测的类应该是 1? (由于生成的类是互斥的,并且概率加起来为 1,因此它们是否具有可比性?)

【问题讨论】:

    标签: python h2o multiclass-classification multinomial gbm


    【解决方案1】:

    对于不平衡的目标列,我会避免 AUC(因为它通常会很高)。考虑使用 AUC-PR 或 Logloss。

    对于多类/多项式,您会有一对多的预测。因此,每个预测都基于其类别与其他类别。所以 P0 是 class_0 与 class_1 + class_2 的概率。所以 P(1,2) = 0.6 是有意义的。

    为了比较概率,可以,可以选择概率最高的预测类输出P1 (0.35) > P2 (0.25) -> Class = 1

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-07-16
      • 2021-05-26
      • 2019-03-04
      • 2020-03-18
      • 2017-11-27
      • 2017-08-20
      • 2014-07-27
      相关资源
      最近更新 更多