【问题标题】:Sampling before or after feature selection在特征选择之前或之后采样
【发布时间】:2020-08-12 11:46:30
【问题描述】:

我对特征选择、采样和交叉验证的顺序感到困惑,我的数据集有 468 行和 23000 列,其中 269 属于 I 类,199 属于 II 类,拆分为训练和测试时的数据有 [215 个 I 类和 159 个 II 类][54 个 I 类和 40 个 II 类在测试中]。由于样本数量较少,我不得不对训练数据应用 SMOTE 过采样以减少偏差。或者我应该在这里应用欠采样,这会导致数据丢失,从而导致样本更小。 I)首先应用过采样,然后是特征选择技术,然后是交叉验证 这样做:在交叉验证期间,由于过度采样导致行重复可能会导致偏差 II)首先应用特征选择技术并进行过度采样,然后进行交叉验证,这将导致与上述相同的偏差。 III) 首先应用特征选择技术,在 10 折交叉验证中对 9 折数据进行抽样。 IV)从交叉验证开始,在每次迭代中执行特征选择,然后对选定的特征数据执行过采样。 V) 从交叉验证开始,在每次迭代中对 9 折数据进行采样,并对 9 折采样数据进行特征选择

哪些技术是正确的方法,也提供了很好的结果。

【问题讨论】:

  • 答案肯定是 4 或 5,其他人则遭受所谓的信息泄漏。我不确定是否有任何关于特征选择和采样顺序的具体指南,尽管我认为应该首先进行特征选择

标签: python machine-learning data-science sampling


【解决方案1】:

SMOTE 论文描述了特征选择应该在采样之前进行。

【讨论】:

    猜你喜欢
    • 2017-02-10
    • 2022-11-22
    • 2018-04-12
    • 2021-05-13
    • 2019-10-11
    • 2020-08-25
    • 2019-06-04
    • 2016-11-30
    • 1970-01-01
    相关资源
    最近更新 更多