【发布时间】:2018-05-16 11:48:48
【问题描述】:
我正在尝试探索使用带有 h2o 的 GBM 来解决分类问题,以取代逻辑回归 (GLM)。我的数据中的非线性和交互使我认为 GBM 更合适。
我运行了一个基线 GBM(见下文)并将 AUC 与逻辑回归的 AUC 进行了比较。 GBM 的表现要好得多。
在经典的线性逻辑回归中,可以看到每个预测变量 (x) 对结果变量 (y) 的方向和影响。
现在,我想以同样的方式评估估计 GBM 的变量重要性。
如何获得每个(两个)类的变量重要性?
我知道变量重要性与逻辑回归中的估计系数不同,但它可以帮助我了解哪个预测变量影响哪个类别。
其他人问过similar questions,但提供的答案不适用于 H2O 对象。
非常感谢任何帮助。
example.gbm <- h2o.gbm(
x = c("list of predictors"),
y = "binary response variable",
training_frame = data,
max_runtime_secs = 1800,
nfolds=5,
stopping_metric = "AUC")
【问题讨论】:
-
你试过了吗:
h2o.varimp(model)? -
是的,但是该命令为两个类提供了变量重要性。
-
您所说的“线性逻辑回归”是什么。您是否可以通过一个示例进一步详细说明“两个类的变量重要性”是什么意思,以及为什么预测两个类的“变量重要性”不是同一组。
-
@GangeshDubey 与“线性逻辑回归”在这种情况下,我只是指二元变量的回归。关于“两个类的变量重要性”,请参见上面的链接。
-
谢谢,查看了
h2o.gbm和h2o.grid的文档,似乎没有直接的方法来实现它。实际上,查看了source code,您可以验证h2o.varimp返回单个值。
标签: r machine-learning classification h2o gbm