在特征选择之前或之后采样答案

【问题标题】：Sampling before or after feature selection在特征选择之前或之后采样
【发布时间】：2020-08-12 11:46:30
【问题描述】：

我对特征选择、采样和交叉验证的顺序感到困惑，我的数据集有 468 行和 23000 列，其中 269 属于 I 类，199 属于 II 类，拆分为训练和测试时的数据有 [215 个 I 类和 159 个 II 类][54 个 I 类和 40 个 II 类在测试中]。由于样本数量较少，我不得不对训练数据应用 SMOTE 过采样以减少偏差。或者我应该在这里应用欠采样，这会导致数据丢失，从而导致样本更小。 I）首先应用过采样，然后是特征选择技术，然后是交叉验证这样做：在交叉验证期间，由于过度采样导致行重复可能会导致偏差 II）首先应用特征选择技术并进行过度采样，然后进行交叉验证，这将导致与上述相同的偏差。 III) 首先应用特征选择技术，在 10 折交叉验证中对 9 折数据进行抽样。 IV）从交叉验证开始，在每次迭代中执行特征选择，然后对选定的特征数据执行过采样。 V) 从交叉验证开始，在每次迭代中对 9 折数据进行采样，并对 9 折采样数据进行特征选择

哪些技术是正确的方法，也提供了很好的结果。

【问题讨论】：

答案肯定是 4 或 5，其他人则遭受所谓的信息泄漏。我不确定是否有任何关于特征选择和采样顺序的具体指南，尽管我认为应该首先进行特征选择

标签： python machine-learning data-science sampling

【解决方案1】：

SMOTE 论文描述了特征选择应该在采样之前进行。

【讨论】：