【问题标题】:Classification tree with less leafs than expected叶子少于预期的分类树
【发布时间】:2017-03-17 12:36:24
【问题描述】:

我的树形图只显示了两个叶子:“DIFF”和“REG”,完全忽略了响应变量的其他值。为什么树忽略其他 6 个值?这是否与它们仅代表我的响应变量中总值的一小部分这一事实有关?下表按响应变量中的值显示频率计数

35785   ED      1%
38060   NONE    1%
45880   INC     1%
49787   UT      1%
53108   OR      1%
165945  ET      4%
1728019 DIFF    43%
1894532 REG     47%

【问题讨论】:

  • 更改抽样以增加其他响应变量的比例。此外,在不了解您的预测变量关于您的预测变量的分布的情况下 - 很难做出任何推断。您最好将此问题发布到 CrossValidated,因为这里没有编程示例。

标签: r tree classification


【解决方案1】:

我怀疑这取决于您所指的不平衡类。倾斜的数据会导致机器学习算法出现问题。例如,我的客户曾经天真地使用机器学习构建了一个欺诈检测系统,当测试报告的准确率达到 97% 且完全没有调整时,他们印象深刻。

原来的预测规则是“从来没有任何欺诈行为”。欺诈非常罕见,以至于“规则集”的准确率达到了 97%。

我假设你的情况类似——尽管没有细节,我倾向于坐在栅栏上。

ways to address the issue

【讨论】:

  • 感谢您的帮助。
猜你喜欢
  • 2021-02-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-02-24
  • 2018-10-02
  • 1970-01-01
  • 1970-01-01
  • 2019-11-08
相关资源
最近更新 更多