【问题标题】:Strategies for handling categorical features for decision trees?处理决策树分类特征的策略?
【发布时间】:2016-04-09 03:51:48
【问题描述】:

在一个节点上,对于分类特征,我目前正在尝试所有 (2^m -2)/2 种可能的方法,将特征的 m 个不同值分成两组。在考虑该特征时,具有相同特征值的所有样本将作为一个组一起移动。

问题是,当 m 为 35(例如,国家)时,我将不得不尝试 17 万亿次拆分。

还有其他处理分类特征的方法吗?

【问题讨论】:

  • 搜索 Don Coppersmith 等人的“在决策树中划分名义属性”。 (是的,这是 Don Coppersmith。:-)

标签: machine-learning decision-tree feature-selection categorical-data


【解决方案1】:

http://uk.mathworks.com/help/stats/splitting-categorical-predictors-for-multiclass-classification.html?s_tid=gn_loc_drop 描述了这个问题。简而言之:

  • 如果这是一个二元分类问题,则根据该类别的平均响应对 m 个值进行排序,然后尝试 m-1 种方法拆分该序列。

  • 否则,该链接仅描述启发式方法,包括 Coppersmith、Hong 和 Hosking 的启发式方法。一个经典的方法是虚拟化:只需尝试 m 个拆分,每个拆分由右分支的一个值和左分支的 m-1 个值组成。

【讨论】:

  • 是的,我正在做二进制分类。我不太明白这意味着什么“树可以通过平均响应(用于回归)或类别之一的类别概率(用于分类)对类别进行排序。然后,最佳拆分是 L – 1 拆分之一有序列表。”由于我没有进行回归,我会按类概率对 m 值进行排序?它是什么以及如何计算这样的概率?
  • 您能否详细说明这是什么意思:“根据该类别的平均响应对 m 值进行排序”?
  • 对于二元分类,响应可以编码为 0 或 1。对于每个 m 值,计算特征取该值的所有样本的响应平均值。这是 [0,1] 中的实数。根据这些实数对 m 值进行排序。
猜你喜欢
  • 2018-05-15
  • 2017-11-09
  • 2016-07-29
  • 2020-04-15
  • 2017-07-11
  • 2022-01-22
  • 2017-12-11
  • 2018-09-07
  • 2021-03-01
相关资源
最近更新 更多