不平衡分类：过采样与缩放特征的顺序？答案

【问题标题】：Imbalanced classification: order of oversampling vs. scaling features?不平衡分类：过采样与缩放特征的顺序？
【发布时间】：2018-06-30 08:51:14
【问题描述】：

使用不平衡数据集（例如欺诈检测）执行分类（例如逻辑回归）时，最好在对少数类进行过采样之前对特征进行缩放/zscore/标准化，还是在缩放之前平衡类特征？

其次，这些步骤的顺序是否会影响最终解释特征的方式（当使用所有数据，缩放+平衡，以训练最终模型时）？

这是一个例子：

先扩展：

首先过采样

【问题讨论】：

【解决方案1】：

您的意思可能是含蓄的，但您还需要应用均值/标准差来缩放训练数据，这需要在拟合模型之前进行。

除此之外，没有明确的答案。最好的办法是简单地尝试两种方法，看看哪种方法最适合您的数据。

为了您自己对结果数据模型的理解，您可能希望改为计算少数类和多数类的均值和标准差。如果他们有相似的统计数据，那么我们不会期望先规模化或先过采样之间有太大差异。

如果均值和标准差相差很大，结果可能会有很大差异。但这也可能意味着问题具有更大的分离度，并且您可能期望更高的分类精度。

【讨论】：