【问题标题】:dealing with imbalanced classification data?处理不平衡的分类数据?
【发布时间】:2020-06-27 19:39:50
【问题描述】:

我正在构建一个预测模型,在该模型上预测客户是否会再次订阅。我已经有了数据集,问题是它不平衡(NO 多于 YES)。我相信我的模型是有偏差的,但是当我检查训练集和测试集的准确率时,准确率非常接近(训练集为 0.8879,测试集为 0.8868)。我感到困惑的原因是,如果我的模型有偏差,为什么我的训练和测试集的准确性接近?还是我的模型没有偏见?

【问题讨论】:

  • 实际的“否”与“是”比率是多少?此外,准确性对于不平衡的类来说是一个糟糕的指标,具体取决于您需要在不同指标上评估的目标。现在,除此之外,我真的不认为这个问题适合 SO,似乎更具理论性,而不是其他任何与编程相关的东西,更适合统计或机器学习 stackexchange。
  • 否 36548 是 4640
  • machinelearningmastery.com/…你可以看这篇
  • 不平衡的数据集和有偏差的模型是两个不同的问题;前者是数据集的属性,而后者涉及学习算法及其训练方式。

标签: machine-learning imbalanced-data


【解决方案1】:

快速响应:是的,您的模型很可能将所有内容都预测为 Majority Class

让我们以更简单的方式来考虑它。您在训练过程中有一个优化器,他试图最大化准确性(最小化错误分类)。假设您有一个包含 1000 张图像的训练集,并且该数据集中只有 10 只老虎,并且您打算学习一个分类器来区分老虎和非老虎。

优化器很可能会为每张图片预测总是非老虎。为什么?因为它是一个更简单的模型,更容易(在更简单的空间中)实现,而且它的准确率也达到了 99%!

我建议您阅读更多关于imbalanced data 问题的信息(这似乎是一个很好的开始https://machinelearningmastery.com/what-is-imbalanced-classification/)根据您要解决的问题,您可以尝试down-samplingover-sampling或更高级的解决方案,例如更改损失函数和指标,使用 F1 或 AUC 和/或进行排名而不是分类。

【讨论】:

    猜你喜欢
    • 2017-04-19
    • 2019-12-25
    • 1970-01-01
    • 2019-07-13
    • 2023-03-17
    • 2017-11-03
    • 2013-12-26
    • 2016-06-19
    • 1970-01-01
    相关资源
    最近更新 更多