比较 h2o gbm 中多项式模型的预测概率答案

【问题标题】：Comparing predicted probabilities from multinomial models in h2o gbm比较 h2o gbm 中多项式模型的预测概率
【发布时间】：2021-06-22 14:27:40
【问题描述】：

我运行了一个 h2o 梯度提升分类器模型来预测三个类别 0,1 和 2 的概率。训练数据中存在严重的类别不平衡 (93:5:2)。

虽然在混淆矩阵中无法正确预测单个类 1 和 2（如预期的那样），但 AUC 对于这些类单独来说是不错的。

我打算手动预测最终的类

我的理解是生成的概率（P0、P1 和 P2）经过校准并且总和为 1。

由于 h2o 中的多项式模型本质上是一对多的方法，但分数总和为 1，添加或比较概率是否正确？

所以如果 P0 = 0.40 , P1 =0.35 和 P2=0.25，则预测类别将为 0（基于最大概率）

这是否意味着 P(1,2) = 0.6 还是 p(不是 0) = 0.6？（因为 0 类的模型实际上是 0 对所有其他类）
然后我可以比较 1&2 的概率并说 P1 (0.35) > P2 (0.25)，所以预测的类应该是 1？（由于生成的类是互斥的，并且概率加起来为 1，因此它们是否具有可比性？）

【问题讨论】：

【解决方案1】：

对于不平衡的目标列，我会避免 AUC（因为它通常会很高）。考虑使用 AUC-PR 或 Logloss。

对于多类/多项式，您会有一对多的预测。因此，每个预测都基于其类别与其他类别。所以 P0 是 class_0 与 class_1 + class_2 的概率。所以 P(1,2) = 0.6 是有意义的。

为了比较概率，可以，可以选择概率最高的预测类输出P1 (0.35) > P2 (0.25) -> Class = 1。

【讨论】：