【发布时间】:2014-11-04 13:13:18
【问题描述】:
我正在运行流式作业,使用用于 map 和 reduce 的 python 脚本。我使用 boto 库创建的工作流程。
我正在使用 gzip 输入文件。但是,如何创建 gzip 输出文件?
【问题讨论】:
标签: hadoop boto amazon-emr
我正在运行流式作业,使用用于 map 和 reduce 的 python 脚本。我使用 boto 库创建的工作流程。
我正在使用 gzip 输入文件。但是,如何创建 gzip 输出文件?
【问题讨论】:
标签: hadoop boto amazon-emr
我使用 java 来处理 gzip 文件并以 gzip 压缩生成输出。我使用下面的代码
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
FileOutputFormat.setOutputPath(job, output path));
我希望你能在 python 中找到类似的 API/代码。
您可以生成 gzip 文件作为生成的输出。将“-D mapred.output.compress=true -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec”作为选项传递给您的流式作业。
【讨论】: