【发布时间】:2020-03-11 02:02:42
【问题描述】:
我目前拥有超过 800,000 个数据点的不平衡数据集。不平衡很严重,因为这两个类别之一只有 3719 个数据点。在 Python 中使用 NearMiss 算法对数据进行欠采样并应用随机森林分类器后,我能够获得以下结果:
- 准确率:81.4%
- 精度:82.6%
- 召回率:79.4%
- 特异性:83.4%
但是,当再次在完整数据集上重新测试同一模型时,由于某种原因,混淆矩阵结果显示出对少数类的较大偏差,显示出大量误报。这是欠采样后测试模型的正确方法吗?
【问题讨论】:
标签: python machine-learning downsampling