【发布时间】:2017-10-22 04:56:09
【问题描述】:
我查看了Sklearn stratified sampling docs 以及pandas docs 以及Stratified samples from Pandas 和sklearn stratified sampling based on a column,但它们没有解决这个问题。
我正在寻找一种快速的 pandas/sklearn/numpy 方法来从数据集中生成大小为 n 的分层样本。但是,对于小于指定采样数的行,它应该取所有条目。
具体例子:
谢谢! :)
【问题讨论】:
-
我认为应该更改问题的标题以反映分层是特征列,而不是目标列。
-
您几乎可以为此使用
imblearn下采样或欠采样技术:imbalanced-learn.org/stable/under_sampling.html
标签: python pandas numpy scikit-learn