【发布时间】:2020-04-01 19:02:12
【问题描述】:
我有一些数据和相应的标签,如下所示:
data = [img1, img2, img3, ...] # each category has 1000 samples, total data is 10000
labels = [1, 1, 2, 2, 3, 3, 4, 4, ...] # total num of labels is 10
我想创建一个新的子数据集,其中一个类别有 1000 个样本,其他类别分别有 100 个样本。所以子数据集中的总数据数为1900。(1000 vs 900)
(我的目的是为二进制分类制作子数据集)
所以我需要为所有每个类别随机抽取相同数量的数据。
我认为它与分层抽样类似,所以我试图在 scikit-learn 中找到方法,但我找不到。
我该怎么做?
【问题讨论】: