使用 PySpark 在读取时过滤镶木地板文件答案

【问题标题】：Filtering parquet file on read with PySpark使用 PySpark 在读取时过滤镶木地板文件
【发布时间】：2020-03-14 23:55:08
【问题描述】：

我有一个存储在 AWS s3 中的大量分区 parquet 文件数据集，我想使用 AWS EMR 从每个月的数据中读取一个样本。我必须通过值“user_id”过滤每个月的数据，例如选择来自 100.000 个用户（数百万）的数据并将聚合写回 s3。

我想出了如何使用 EMR 集群读写 s3，但我在一个非常小的数据集上进行了测试。对于真实的数据集，我需要过滤数据才能对其进行处理。如何使用 pyspark 做到这一点？

【问题讨论】：

【解决方案1】：

Spark 有多个采样转换。 df.sample(...) 是您想要的那个。见this answer。

如果您需要返回确切数量的结果，则必须 (a) 稍微过度采样，然后 (b) 使用 df.limit() 来获得确切数量。

如果您只能处理一小部分，而不是目标计数，则可以保存df.count。

【讨论】：