【发布时间】:2018-06-30 08:51:14
【问题描述】:
使用不平衡数据集(例如欺诈检测)执行分类(例如逻辑回归)时,最好在对少数类进行过采样之前对特征进行缩放/zscore/标准化,还是在缩放之前平衡类特征?
其次,这些步骤的顺序是否会影响最终解释特征的方式(当使用所有数据,缩放+平衡,以训练最终模型时)?
这是一个例子:
先扩展:
- 将数据拆分为训练/测试折叠
- 使用所有训练(不平衡)数据计算均值/标准差;使用这些计算扩展训练数据
- 在训练数据中过采样少数类(例如,使用 SMOTE)
- 将逻辑回归模型拟合到训练数据
- 使用均值/标准差计算来缩放测试数据
- 使用不平衡的测试数据预测类;评估 acc/recall/precision/auc
首先过采样
- 将数据拆分为训练/测试折叠
- 在训练数据中过采样少数类(例如,使用 SMOTE)
- 使用平衡的训练数据计算均值/标准差;使用这些计算扩展训练数据
- 将逻辑回归模型拟合到训练数据
- 使用均值/标准差计算来缩放测试数据
- 使用不平衡的测试数据预测类;评估 acc/recall/precision/auc
【问题讨论】:
标签: machine-learning classification logistic-regression