处理不平衡的分类数据？答案

【问题标题】：dealing with imbalanced classification data?处理不平衡的分类数据？
【发布时间】：2020-06-27 19:39:50
【问题描述】：

我正在构建一个预测模型，在该模型上预测客户是否会再次订阅。我已经有了数据集，问题是它不平衡（NO 多于 YES）。我相信我的模型是有偏差的，但是当我检查训练集和测试集的准确率时，准确率非常接近（训练集为 0.8879，测试集为 0.8868）。我感到困惑的原因是，如果我的模型有偏差，为什么我的训练和测试集的准确性接近？还是我的模型没有偏见？

【问题讨论】：

实际的“否”与“是”比率是多少？此外，准确性对于不平衡的类来说是一个糟糕的指标，具体取决于您需要在不同指标上评估的目标。现在，除此之外，我真的不认为这个问题适合 SO，似乎更具理论性，而不是其他任何与编程相关的东西，更适合统计或机器学习 stackexchange。
否 36548 是 4640
machinelearningmastery.com/…你可以看这篇
不平衡的数据集和有偏差的模型是两个不同的问题；前者是数据集的属性，而后者涉及学习算法及其训练方式。

标签： machine-learning imbalanced-data

【解决方案1】：

快速响应：是的，您的模型很可能将所有内容都预测为 Majority Class。

让我们以更简单的方式来考虑它。您在训练过程中有一个优化器，他试图最大化准确性（最小化错误分类）。假设您有一个包含 1000 张图像的训练集，并且该数据集中只有 10 只老虎，并且您打算学习一个分类器来区分老虎和非老虎。

优化器很可能会为每张图片预测总是非老虎。为什么？因为它是一个更简单的模型，更容易（在更简单的空间中）实现，而且它的准确率也达到了 99%！

我建议您阅读更多关于imbalanced data 问题的信息（这似乎是一个很好的开始https://machinelearningmastery.com/what-is-imbalanced-classification/）根据您要解决的问题，您可以尝试down-sampling 或over-sampling或更高级的解决方案，例如更改损失函数和指标，使用 F1 或 AUC 和/或进行排名而不是分类。

【讨论】：