高效采样答案

【问题标题】：Efficient Sampling高效采样
【发布时间】：2019-08-02 14:31:07
【问题描述】：

我是初学者，需要一些指导来解决可能是非常基本但对我来说无法解决的问题：

我正在处理一个超过 1000 万行的 Kaggle 数据集，并希望对其进行采样以进入适当的 EDA。我见过几个人将 nrows 参数简单地放在 .read_csv 方法中，但是在任意点切割它不是效率低下的采样，因此偏向任何结果？

.sample 方法使用了一个简单的随机器，我觉得它无法捕捉到不同比例的类别。什么是更好的抽样选择？

【问题讨论】：

【解决方案1】：

如果这是监督学习（即你有数据标签），你可以使用

train_X, test_X, train_Y, test_Y = train_test_split(data, label, test_size = 0.2, random_state = 138,shuffle=True,stratify=label)

分层将允许您在最终数据集中保持每个类的相同比例

【讨论】：

我考虑过 train_test_split 但我正在构建一个推荐引擎，我需要在其中推荐最适合每个客户的产品，所以我没有每个说的标签..但是如果有办法解决它，请告诉我:)谢谢！