来自 H2O Mojo/Pojo 的分类树图答案

【问题标题】：Classification Tree Diagram from H2O Mojo/Pojo来自 H2O Mojo/Pojo 的分类树图
【发布时间】：2019-04-22 06:10:14
【问题描述】：

这个问题很大程度上来自this question 的解决方案作为起点。鉴于我可以使用 R 来生成 mojo 模型对象：

library(h2o)
h2o.init()
airlinedf <- h2o.importFile("http://s3.amazonaws.com/h2o-public-test-data/smalldata/airlines/allyears2k_headers.zip")
airlinemodel <- h2o.gbm(model_id = "airlinemodel",
                training_frame = airlinedf,
                x = c("Year", "Month", "DayofMonth", "DayOfWeek", "UniqueCarrier"),
                y = "IsDepDelayed",
                max_depth = 3,
                ntrees = 5)
h2o.download_mojo(airlinemodel, getwd(), FALSE)

然后用 bash/graphviz 生成该模型的树形图：

java -cp h2o.jar hex.genmodel.tools.PrintMojo --tree 0 -i airlinemodel.zip -o airlinemodel.gv
dot -Tpng airlinemodel.gv -o airlinemodel.png

我的问题是三个方面：

如何解释此可视化中的值和决策以及终端节点处的值？第二层的 NA 是什么？如果终端节点中的值是“类概率”，它们怎么可能是负数？
1. 有没有办法可视化或概念化模型中所有树的“汇总树”？
2. 如何制作图表以使用颜色或形状来指示末端节点中项目的二元分类分配？

【问题讨论】：

对于您的第一个问题，请查看这个问题，它提出了同样的问题：stats.stackexchange.com/questions/374569/…。谢谢！

标签： r graphviz h2o gbm

【解决方案1】：

有一种更好的方法可以使用 H2O 构建决策树 - 无需提取 MOJO 或离开 R/Python - 使用新的 Tree API（从 3.22.0.1 开始）。有关全面的解释，请参阅：

【讨论】：