具有分类特征的决策树答案

【问题标题】：Decision tree with categorical features具有分类特征的决策树
【发布时间】：2016-07-29 03:22:21
【问题描述】：

我正在实施决策树。假设“种族”特征具有以下可能值： ['Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'Other', 'Black']

假设节点中的样本具有以下“种族”特征的值，并且“种族”被选为目前最好的分裂特征。

['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'White', 'White', 'Other', 'Black']

请注意，这些值被分组在一起 - “排序”。

假设熵 diff 告诉我以下是最佳分割位置：（竖线“|”）

['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', | “白色”、“白色”、“白色”、“其他”、“黑色”]

那么，拆分规则到底是什么？让“asian-pac-islander”和“amer_indian_eskimo”向左走，“white”、“other”和“black”向右走是没有意义的，因为它们不是数字。

谢谢。

【问题讨论】：

【解决方案1】：

请记住，决策树节点的“左”和“右”子节点是人类用于可视化的任意标签，而不是树的固有数学属性。翻转任何节点的左右子节点都会产生相同的（数学家可能会说“同构”）树。

在对分类属性进行拆分时，您通常会尝试每组值并比较它们的 Gini 或信息增益以确定最佳拆分。一旦确定了最佳分割，哪个组是“左”组，哪个是“右”组是随机选择的，因为这并不重要。

您似乎也在考虑字面意义上的拆分，即在特定排序的列表中绘制分界线。对于分类属性，您不会以这种方式创建拆分。相反，您将拆分条件定义为，例如，“White、Other 和 Black 向左；所有其他 Race 标签向右”。进入拆分节点的数据顺序不应影响结果拆分。

【讨论】：