【发布时间】:2018-12-01 02:28:33
【问题描述】:
我正在使用 scikit-learn DecisionTreeClassifier 来构建决策树。假设给定的决策树有 6 个叶/终端节点(A、B、C、D、E 和 F)。我现在想分配编码为它们将属于哪个叶/终端节点的原始记录(将其视为特征工程的一种形式)。
我不希望直接对记录进行评分,而是将来自各种树的虚拟变量集合构建到特征工程管道中。
有没有人知道这样做的简单方法?
【问题讨论】:
-
这里给出了一个例子:scikit-learn.org/stable/auto_examples/ensemble/…。虽然它使用 GradientBoostingClassifier,但你可以接受这个想法。
-
现在这真是太棒了!!!非常感谢!
标签: python scikit-learn decision-tree dummy-variable