【发布时间】:2018-03-06 05:52:30
【问题描述】:
我有一个任务,我正在接收应该用于处理的文件列表(每个文件的大小非常小)。 我的 AWS S3 存储桶中存储了数百万个此类文件,我只需要过滤和处理上述列表中存在的那些文件。
谁能告诉我在 Spark 中执行此操作的最佳实践?
例如。 XYZ 大学的 AWS S3 存储桶中存在数百万个文件。每个文件都有一个唯一的 ID 作为文件名。我得到了要处理的 1000 个唯一 ID 的列表。现在我只需要对这些文件进行处理以聚合并生成输出 csv 文件。
【问题讨论】:
标签: apache-spark amazon-s3 apache-spark-sql