【问题标题】:ElasticMapReduce streaming compressed outputElasticMapReduce 流式压缩输出
【发布时间】:2014-11-04 13:13:18
【问题描述】:

我正在运行流式作业,使用用于 map 和 reduce 的 python 脚本。我使用 boto 库创建的工作流程。

我正在使用 gzip 输入文件。但是,如何创建 gzip 输出文件?

【问题讨论】:

    标签: hadoop boto amazon-emr


    【解决方案1】:

    我使用 java 来处理 gzip 文件并以 gzip 压缩生成输出。我使用下面的代码

        FileOutputFormat.setCompressOutput(job, true);
        FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);  
        FileOutputFormat.setOutputPath(job, output path));
    

    我希望你能在 python 中找到类似的 API/代码。

    您可以生成 gzip 文件作为生成的输出。将“-D mapred.output.compress=true -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec”作为选项传递给您的流式作业。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-08-08
      • 1970-01-01
      • 2018-02-21
      • 2016-06-30
      • 2011-10-23
      • 2016-03-17
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多