【发布时间】:2020-03-14 23:55:08
【问题描述】:
我有一个存储在 AWS s3 中的大量分区 parquet 文件数据集,我想使用 AWS EMR 从每个月的数据中读取一个样本。我必须通过值“user_id”过滤每个月的数据,例如选择来自 100.000 个用户(数百万)的数据并将聚合写回 s3。
我想出了如何使用 EMR 集群读写 s3,但我在一个非常小的数据集上进行了测试。对于真实的数据集,我需要过滤数据才能对其进行处理。如何使用 pyspark 做到这一点?
【问题讨论】:
-
您想要过滤的那 100.000 个用户存储在集合、数据框中,还是您只想要一些随机用户?
-
我实际上不是将它们存储为用户,而是用户执行的事件。我已经编写了一个脚本来将此事件级文件转换为用户级表,但现在我面临从分区拼花文件读取的问题
标签: python-3.x amazon-web-services apache-spark pyspark-sql amazon-emr