【问题标题】:Efficient Sampling高效采样
【发布时间】:2019-08-02 14:31:07
【问题描述】:

我是初学者,需要一些指导来解决可能是非常基本但对我来说无法解决的问题:

我正在处理一个超过 1000 万行的 Kaggle 数据集,并希望对其进行采样以进入适当的 EDA。我见过几个人将 nrows 参数简单地放在 .read_csv 方法中,但是在任意点切割它不是效率低下的采样,因此偏向任何结果?

.sample 方法使用了一个简单的随机器,我觉得它无法捕捉到不同比例的类别。什么是更好的抽样选择?

【问题讨论】:

标签: python pandas scikit-learn sampling eda


【解决方案1】:

如果这是监督学习(即你有数据标签),你可以使用

train_X, test_X, train_Y, test_Y = train_test_split(data, label, test_size = 0.2, random_state = 138,shuffle=True,stratify=label)


分层将允许您在最终数据集中保持每个类的相同比例

【讨论】:

  • 我考虑过 train_test_split 但我正在构建一个推荐引擎,我需要在其中推荐最适合每个客户的产品,所以我没有每个说的标签..但是如果有办法解决它,请告诉我:)谢谢!
猜你喜欢
  • 1970-01-01
  • 2018-08-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-04-28
  • 1970-01-01
  • 1970-01-01
  • 2021-06-30
相关资源
最近更新 更多