处理决策树分类特征的策略？

【问题标题】：Strategies for handling categorical features for decision trees?处理决策树分类特征的策略？
【发布时间】：2016-04-09 03:51:48
【问题描述】：

在一个节点上，对于分类特征，我目前正在尝试所有 (2^m -2)/2 种可能的方法，将特征的 m 个不同值分成两组。在考虑该特征时，具有相同特征值的所有样本将作为一个组一起移动。

问题是，当 m 为 35（例如，国家）时，我将不得不尝试 17 万亿次拆分。

还有其他处理分类特征的方法吗？

【问题讨论】：

搜索 Don Coppersmith 等人的“在决策树中划分名义属性”。（是的，这是的 Don Coppersmith。:-)

标签： machine-learning decision-tree feature-selection categorical-data

【解决方案1】：

http://uk.mathworks.com/help/stats/splitting-categorical-predictors-for-multiclass-classification.html?s_tid=gn_loc_drop 描述了这个问题。简而言之：

如果这是一个二元分类问题，则根据该类别的平均响应对 m 个值进行排序，然后尝试 m-1 种方法拆分该序列。
否则，该链接仅描述启发式方法，包括 Coppersmith、Hong 和 Hosking 的启发式方法。一个经典的方法是虚拟化：只需尝试 m 个拆分，每个拆分由右分支的一个值和左分支的 m-1 个值组成。

【讨论】：

是的，我正在做二进制分类。我不太明白这意味着什么“树可以通过平均响应（用于回归）或类别之一的类别概率（用于分类）对类别进行排序。然后，最佳拆分是 L – 1 拆分之一有序列表。”由于我没有进行回归，我会按类概率对 m 值进行排序？它是什么以及如何计算这样的概率？
您能否详细说明这是什么意思：“根据该类别的平均响应对 m 值进行排序”？
对于二元分类，响应可以编码为 0 或 1。对于每个 m 值，计算特征取该值的所有样本的响应平均值。这是 [0,1] 中的实数。根据这些实数对 m 值进行排序。

猜你喜欢

2018-05-15
2017-11-09
2016-07-29
2020-04-15
2017-07-11
2022-01-22
2017-12-11
2018-09-07
2021-03-01

相关资源

下载 2022-12-16
下载 2023-02-08
下载 2022-12-18

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode