【发布时间】:2014-08-02 04:14:29
【问题描述】:
我正在尝试 MapReduce 日志,并且我想在 EMR 中处理它们之前按文件名过滤存储桶中的所有日志。另外,有些文件是 tar 目录,我希望 mrjob 解压缩它,然后过滤其中的文件以仅解析相关文件。
知道如何通过来自MrJob 的文件名过滤存储桶 s3 吗? 我找到了mapper_pre_filter!方法,但它只逐行过滤输入。
【问题讨论】:
-
我不确定是否过滤文件,但您可以使用
s3distcp作业过滤和移动特定存储桶中的所需文件。
标签: python amazon-s3 mapreduce emr mrjob