【发布时间】:2021-01-20 21:45:25
【问题描述】:
所以我有 1000 个 1 类和 2500 个 2 类。所以在使用时很自然:
sklearn 的train_test_split(test_size = 200, stratify = y)。我得到了一个不平衡的测试集,因为它保留了原始数据集中的数据分布。但是,我想在测试集中拆分为 100 个 1 类和 100 个 2 类。
我该怎么做?任何建议将不胜感激。
【问题讨论】:
-
标题有点误导。应该考虑改为“在分层抽样中每类抽取相等数量的样本”。
标签: python machine-learning scikit-learn classification