【发布时间】:2020-08-12 11:46:30
【问题描述】:
我对特征选择、采样和交叉验证的顺序感到困惑,我的数据集有 468 行和 23000 列,其中 269 属于 I 类,199 属于 II 类,拆分为训练和测试时的数据有 [215 个 I 类和 159 个 II 类][54 个 I 类和 40 个 II 类在测试中]。由于样本数量较少,我不得不对训练数据应用 SMOTE 过采样以减少偏差。或者我应该在这里应用欠采样,这会导致数据丢失,从而导致样本更小。 I)首先应用过采样,然后是特征选择技术,然后是交叉验证 这样做:在交叉验证期间,由于过度采样导致行重复可能会导致偏差 II)首先应用特征选择技术并进行过度采样,然后进行交叉验证,这将导致与上述相同的偏差。 III) 首先应用特征选择技术,在 10 折交叉验证中对 9 折数据进行抽样。 IV)从交叉验证开始,在每次迭代中执行特征选择,然后对选定的特征数据执行过采样。 V) 从交叉验证开始,在每次迭代中对 9 折数据进行采样,并对 9 折采样数据进行特征选择
哪些技术是正确的方法,也提供了很好的结果。
【问题讨论】:
-
答案肯定是 4 或 5,其他人则遭受所谓的信息泄漏。我不确定是否有任何关于特征选择和采样顺序的具体指南,尽管我认为应该首先进行特征选择
标签: python machine-learning data-science sampling