【发布时间】:2018-09-05 05:54:48
【问题描述】:
我有一个不平衡的数据集。我正在使用 SMOTE(合成少数过采样技术)来执行过采样。在执行二元分类时,我在这个过采样数据集上使用了 10 倍交叉验证。
但是,我最近看到了这篇论文; Joint use of over- and under-sampling techniques and cross-validation for the development and assessment of prediction models 提到在交叉验证期间使用过采样数据集是不正确的,因为它会导致性能估计过于乐观。
我想验证在交叉验证中使用过采样数据的正确方法/程序?
【问题讨论】:
-
您总是希望独立执行每个交叉验证折叠的所有分析步骤。在这种情况下,分别对每个折叠进行过度采样。你链接到的论文描述了做简历的正确方法。
-
我认为这个问题应该在 Cross Validated stats.stackexchange.com 上,因为它不是关于实施,而是更多关于想法。
-
@Gabe 你的意思是10折,我必须分别进行过采样吗?
-
是的,您希望仅使用该折叠中的数据对每个折叠本身进行过度采样。这样,您实际上是在对 10 个“不同”数据集进行分类(包括过采样),这是进行 CV 来估计性能的关键。我自己不使用 Weka,但似乎 nekomatic 的回答解释了如何在那里实现它。
标签: machine-learning weka cross-validation oversampling