【发布时间】:2018-03-05 14:55:31
【问题描述】:
我试图更多地了解 CART 算法,特别是为分类变量考虑了多少拆分。
和
http://www.stat.wisc.edu/~loh/treeprogs/guide/wires11.pdf
他们都声明对于分类变量,CART 将考虑 2^m-1 -1 拆分。
特别是在第二篇论文中,Loh 教授强调,对于一个包含 31 个离散值的分类变量,“仅在根节点上”就需要有 2^30 -1 个拆分。所以将近 20 亿次分裂。
我真的很难清楚地理解这一点,我误解了这个过程的一部分。如果我计算 31 个值的排列数,它会给我 8.22...e+33,这显然超过了 20 亿。然而,组合的数量是 31^2 = 961。
在这种情况下,我们如何达到 2^30 分割的需求?我似乎无法确定这里的规则或逻辑。它似乎不是基于组合学的,如果我们只有 31 个要拆分的值,我看不出我们如何需要 20 亿次拆分。
任何指导将不胜感激。
谢谢
大卫
【问题讨论】:
-
提示:您希望将一组级别分成两个子集,一个用于左子树,一个用于右子树。一组大小为 m 的子集有多少个?
-
谢谢@HongOoi,一边走一边修剪草坪,一边多想一边肯定有帮助。
标签: machine-learning statistics combinatorics decision-tree