【发布时间】:2018-05-17 21:08:25
【问题描述】:
我有一个不平衡的数据集,它有两个类 (+1,-1)。阳性结果仅占数据集的 7%。
我想使用决策树进行分类。我已经尝试将底片下采样到:
- 正片大小相同
- 正片大小的两倍或三倍。
对于所有这些,我得到了几乎相同的精度,但是对于第一个样本(负样本与正样本的大小相同),正样本的召回率要好得多。但我觉得我在这里遗漏了一些东西,所以这个采样有什么不好的??
【问题讨论】:
标签: random machine-learning statistics classification statistical-sampling