【问题标题】:sampling ratio for imbalanced dataset不平衡数据集的采样率
【发布时间】:2018-05-17 21:08:25
【问题描述】:

我有一个不平衡的数据集,它有两个类 (+1,-1)。阳性结果仅占数据集的 7%。

我想使用决策树进行分类。我已经尝试将底片下采样到:

  1. 正片大小相同
  2. 正片大小的两倍或三倍。

对于所有这些,我得到了几乎相同的精度,但是对于第一个样本(负样本与正样本的大小相同),正样本的召回率要好得多。但我觉得我在这里遗漏了一些东西,所以这个采样有什么不好的??

【问题讨论】:

    标签: random machine-learning statistics classification statistical-sampling


    【解决方案1】:

    对主导类进行下采样是相当普遍的。

    但你需要确保解决你的实际问题。

    如果您将班级样本缩减为 1:1 的比例,这可能会使某些评估看起来不错,但这是否仍能反映现实?您的分类器经过训练可以在 50% 的情况下预测为阳性,但只有 3% 是阳性的。如果“误报”花费了你很多钱,这可能是个问题。

    【讨论】:

      猜你喜欢
      • 2022-11-15
      • 2023-03-03
      • 2017-10-29
      • 2017-10-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-06-22
      • 2019-04-30
      相关资源
      最近更新 更多