在决策树中寻找连续数据阈值的方法答案

【问题标题】：Method of finding threshold in Decision tree for continuous data在决策树中寻找连续数据阈值的方法
【发布时间】：2016-02-03 17:15:07
【问题描述】：

我在 Weka 中使用决策树并且我有一些连续的数据，所以当我使用 Weka 时，它会自动为我找到阈值，但由于某种原因我想自己实现决策树，所以我需要知道使用什么方法找到离散化我的连续数据的阈值？

【问题讨论】：

【解决方案1】：

ID3 和 C4.5 使用 entropy 启发式方法对连续数据进行离散化。该方法为每个变量（特征）找到一个二元切割。您可以递归地应用相同的方法来从连续数据中获取多个区间。

假设在某个树节点，所有实例都属于一组S，并且您正在处理变量A和特定边界（切割）T，分区的类信息熵由T，表示为E(A,T,S)，由：

             |S1|                 |S2|
E(A, T, S) = ---- Entropy(S1) +   ---- Entropy(S2)
              |S|                 |S|

其中|S1| 是第一个分区中的实例数； |S2| 是第二个分区的实例数； |S| = |S1|+|S2|.

对于给定的特征A，在所有可能的分区边界上最小化熵函数的边界T_min被选为二进制离散化边界。

例如，您可能有一个变量Length，所有可能的值如下：

Length = {2.1, 2.8, 3.5, 8.0, 10.0, 20.0, 50.0, 51.0}

那么您的T 可能是：

T = {2.1, 2.8, 3.5, 8.0, 10.0, 20.0, 50.0, 51.0}

您在其中削减了所有可能的Length 值。您还可以在相邻 Length 值的每个中间点进行剪切，例如，

T = {2.45, 3.15, 5.75, 9.0, 15.0, 35.0, 50.5}

在离散化时，您将遍历所有可能的 T 值并评估哪个值获得最小值 E(A, T, S)。就是这样。

在此paper 中查看更多详细信息，其中还描述了其他可选方法：

【讨论】：