【发布时间】:2016-07-29 03:22:21
【问题描述】:
我正在实施决策树。 假设“种族”特征具有以下可能值: ['Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'Other', 'Black']
假设节点中的样本具有以下“种族”特征的值,并且“种族”被选为目前最好的分裂特征。
['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'White', 'White', 'Other', 'Black']
请注意,这些值被分组在一起 - “排序”。
假设熵 diff 告诉我以下是最佳分割位置:(竖线“|”)
['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', | “白色”、“白色”、“白色”、“其他”、“黑色”]
那么,拆分规则到底是什么?让“asian-pac-islander”和“amer_indian_eskimo”向左走,“white”、“other”和“black”向右走是没有意义的,因为它们不是数字。
谢谢。
【问题讨论】:
-
对于分类特征,您可以选择其中一个进行拆分。为什么你不能只使用给你最大信息增益的“种族”功能?
标签: machine-learning decision-tree