【发布时间】:2019-08-02 14:31:07
【问题描述】:
我是初学者,需要一些指导来解决可能是非常基本但对我来说无法解决的问题:
我正在处理一个超过 1000 万行的 Kaggle 数据集,并希望对其进行采样以进入适当的 EDA。我见过几个人将 nrows 参数简单地放在 .read_csv 方法中,但是在任意点切割它不是效率低下的采样,因此偏向任何结果?
.sample 方法使用了一个简单的随机器,我觉得它无法捕捉到不同比例的类别。什么是更好的抽样选择?
【问题讨论】:
标签: python pandas scikit-learn sampling eda