【发布时间】:2016-04-09 03:51:48
【问题描述】:
在一个节点上,对于分类特征,我目前正在尝试所有 (2^m -2)/2 种可能的方法,将特征的 m 个不同值分成两组。在考虑该特征时,具有相同特征值的所有样本将作为一个组一起移动。
问题是,当 m 为 35(例如,国家)时,我将不得不尝试 17 万亿次拆分。
还有其他处理分类特征的方法吗?
【问题讨论】:
-
搜索 Don Coppersmith 等人的“在决策树中划分名义属性”。 (是的,这是的 Don Coppersmith。:-)
标签: machine-learning decision-tree feature-selection categorical-data