【发布时间】:2020-09-09 13:17:40
【问题描述】:
我是机器学习的新手,目前正在从事一个包含不平衡数据的项目。 我想使用随机欠采样来平衡数据。 我很困惑是否应该在测试训练拆分后进行欠采样,还是应该先进行欠采样,然后再进行训练测试拆分?
我的方法: 1. 我使用训练测试拆分得到:X_train、y_train 用于训练,X_test 和 y_test 用于测试。 2. 我将 X_train 和 y_train 组合成一个数据集并进行欠采样。 3. 欠采样后,基于F1分数进行交叉验证和模型选择,并使用X_test.,Y_test进行预测。
我的方法正确吗? 如果我错了,请纠正我。
【问题讨论】:
-
你能提供班级的比例吗?还有样本总数
-
看来这两种操作顺序对于它们各自的问题都是有意义的。您能告诉我们更多关于您要解决的问题吗?这限制了你的假设。
-
Class 0 : 50140, Class 1 : 4668。我想保留一个测试数据,它不是欠采样数据集的子集,用于检查模型的准确性。这就是我想做第一次训练测试拆分的原因,我将对训练数据进行欠采样并使用测试数据检查准确性。
标签: machine-learning resampling train-test-split