叶子少于预期的分类树答案

【问题标题】：Classification tree with less leafs than expected叶子少于预期的分类树
【发布时间】：2017-03-17 12:36:24
【问题描述】：

我的树形图只显示了两个叶子：“DIFF”和“REG”，完全忽略了响应变量的其他值。为什么树忽略其他 6 个值？这是否与它们仅代表我的响应变量中总值的一小部分这一事实有关？下表按响应变量中的值显示频率计数

35785   ED      1%
38060   NONE    1%
45880   INC     1%
49787   UT      1%
53108   OR      1%
165945  ET      4%
1728019 DIFF    43%
1894532 REG     47%

【问题讨论】：

更改抽样以增加其他响应变量的比例。此外，在不了解您的预测变量关于您的预测变量的分布的情况下 - 很难做出任何推断。您最好将此问题发布到 CrossValidated，因为这里没有编程示例。

标签： r tree classification

【解决方案1】：

我怀疑这取决于您所指的不平衡类。倾斜的数据会导致机器学习算法出现问题。例如，我的客户曾经天真地使用机器学习构建了一个欺诈检测系统，当测试报告的准确率达到 97% 且完全没有调整时，他们印象深刻。

原来的预测规则是“从来没有任何欺诈行为”。欺诈非常罕见，以至于“规则集”的准确率达到了 97%。

我假设你的情况类似——尽管没有细节，我倾向于坐在栅栏上。

有ways to address the issue。

【讨论】：

感谢您的帮助。