【问题标题】:Imbalanced classification: order of oversampling vs. scaling features?不平衡分类:过采样与缩放特征的顺序?
【发布时间】:2018-06-30 08:51:14
【问题描述】:

使用不平衡数据集(例如欺诈检测)执行分类(例如逻辑回归)时,最好在对少数类进行过采样之前对特征进行缩放/zscore/标准化,还是在缩放之前平衡类特征?

其次,这些步骤的顺序是否会影响最终解释特征的方式(当使用所有数据,缩放+平衡,以训练最终模型时)?

这是一个例子:

先扩展:

  1. 将数据拆分为训练/测试折叠
  2. 使用所有训练(不平衡)数据计算均值/标准差;使用这些计算扩展训练数据
  3. 在训练数据中过采样少数类(例如,使用 SMOTE)
  4. 将逻辑回归模型拟合到训练数据
  5. 使用均值/标准差计算来缩放测试数据
  6. 使用不平衡的测试数据预测类;评估 acc/recall/precision/auc

首先过采样

  1. 将数据拆分为训练/测试折叠
  2. 在训练数据中过采样少数类(例如,使用 SMOTE)
  3. 使用平衡的训练数据计算均值/标准差;使用这些计算扩展训练数据
  4. 将逻辑回归模型拟合到训练数据
  5. 使用均值/标准差计算来缩放测试数据
  6. 使用不平衡的测试数据预测类;评估 acc/recall/precision/auc

【问题讨论】:

    标签: machine-learning classification logistic-regression


    【解决方案1】:

    您的意思可能是含蓄的,但您还需要应用均值/标准差来缩放训练数据,这需要在拟合模型之前进行。

    除此之外,没有明确的答案。最好的办法是简单地尝试两种方法,看看哪种方法最适合您的数据

    为了您自己对结果数据模型的理解,您可能希望改为计算少数类和多数类的均值和标准差。如果他们有相似的统计数据,那么我们不会期望先规模化或先过采样之间有太大差异。

    如果均值和标准差相差很大,结果可能会有很大差异。但这也可能意味着问题具有更大的分离度,并且您可能期望更高的分类精度。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-11-20
      • 1970-01-01
      • 2023-03-03
      • 2017-10-29
      • 2020-03-11
      • 2018-12-06
      • 1970-01-01
      • 2020-08-30
      相关资源
      最近更新 更多