【发布时间】:2016-10-07 03:25:02
【问题描述】:
在学习了一个 mllib 决策树模型 (http://spark.apache.org/docs/latest/mllib-decision-tree.html) 后,我如何计算节点统计信息,例如支持度(有多少样本匹配此子树)以及每个标签有多少样本匹配此子树?
如果它更容易,我也很乐意使用 Spark 以外的任何其他工具来获取调试字符串并计算这些统计信息。调试字符串示例:
DecisionTreeModel classifier of depth 20 with 20031 nodes
If (feature 0 <= -35.0)
If (feature 24 <= 176.0)
If (feature 0 <= -200.0)
If (feature 29 <= 109.0)
If (feature 6 <= -156.0)
If (feature 9 <= 0.0)
If (feature 20 <= -116.0)
If (feature 16 <= 203.0)
If (feature 11 <= 163.0)
If (feature 5 <= 384.0)
If (feature 15 <= 325.0)
If (feature 13 <= -248.0)
If (feature 20 <= -146.0)
Predict: 0.0
Else (feature 20 > -146.0)
If (feature 19 <= -58.0)
Predict: 6.0
Else (feature 19 > -58.0)
Predict: 0.0
Else (feature 13 > -248.0)
If (feature 9 <= -26.0)
Predict: 0.0
Else (feature 9 > -26.0)
If (feature 10 <= 218.0)
...
我使用 mllib 是因为我需要进行核外学习,因为数据不适合内存。如果您有比 mllib 更好的替代品,我很乐意尝试一下。
【问题讨论】:
标签: apache-spark pyspark decision-tree apache-spark-mllib