【问题标题】:Decision tree with categorical features具有分类特征的决策树
【发布时间】:2016-07-29 03:22:21
【问题描述】:

我正在实施决策树。 假设“种族”特征具有以下可能值: ['Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'Other', 'Black']

假设节点中的样本具有以下“种族”特征的值,并且“种族”被选为目前最好的分裂特征。

['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'White', 'White', 'Other', 'Black']

请注意,这些值被分组在一起 - “排序”。

假设熵 diff 告诉我以下是最佳分割位置:(竖线“|”)

['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', | “白色”、“白色”、“白色”、“其他”、“黑色”]

那么,拆分规则到底是什么?让“asian-pac-islander”和“amer_indian_eskimo”向左走,“white”、“other”和“black”向右走是没有意义的,因为它们不是数字。

谢谢。

【问题讨论】:

  • 对于分类特征,您可以选择其中一个进行拆分。为什么你不能只使用给你最大信息增益的“种族”功能?

标签: machine-learning decision-tree


【解决方案1】:

请记住,决策树节点的“左”和“右”子节点是人类用于可视化的任意标签,而不是树的固有数学属性。翻转任何节点的左右子节点都会产生相同的(数学家可能会说“同构”)树。

在对分类属性进行拆分时,您通常会尝试每组值并比较它们的 Gini 或信息增益以确定最佳拆分。一旦确定了最佳分割,哪个组是“左”组,哪个是“右”组是随机选择的,因为这并不重要。

您似乎也在考虑字面意义上的拆分,即在特定排序的列表中绘制分界线。对于分类属性,您不会以这种方式创建拆分。相反,您将拆分条件定义为,例如,“White、Other 和 Black 向左;所有其他 Race 标签向右”。进入拆分节点的数据顺序不应影响结果拆分。

【讨论】:

    猜你喜欢
    • 2018-05-15
    • 1970-01-01
    • 2018-11-05
    • 2022-01-22
    • 2014-09-22
    • 2018-09-07
    • 2021-03-01
    • 2021-07-25
    • 2017-11-09
    相关资源
    最近更新 更多