【发布时间】:2018-01-21 01:03:55
【问题描述】:
我正在尝试以内存有效的方式获取大量数据集的样本,其中 +ve 样本的数量 = -ve 样本的数量。
数据的比例是 4 : 2 +ve 到 -ve 所以我试图制作一个样本,其中数据的比例是 2:2
A B C class
0 0 1 2 0
1 3 4 5 0
2 6 7 8 1
3 9 10 11 1
4 12 13 14 1
5 15 16 17 1
期望的输出:
A B C class
0 0 1 2 0
1 3 4 5 0
2 6 7 8 1
3 9 10 11 1
我尝试使用 python 代码使用 pandas value_counts func 对其进行采样,但它的内存效率不高。
【问题讨论】:
标签: python pandas dataframe machine-learning