【问题标题】:Hadoop gzip input file using only one mapper [duplicate]Hadoop gzip输入文件仅使用一个映射器[重复]
【发布时间】:2016-01-06 13:49:12
【问题描述】:

可能重复:
Why can't hadoop split up a large text file and then compress the splits using gzip?

我发现当使用 gzip 压缩的输入文件时,Hadoop 选择仅分配一个地图任务来处理我的地图/减少作业。

gzip 压缩文件超过 1.4 GB,因此我希望许多映射器可以并行运行(就像使用未压缩文件时一样)

我可以做任何配置来改进它吗?

【问题讨论】:

标签: hadoop gzip mapreduce


【解决方案1】:

Gzip 文件无法拆分,因此所有数据仅由一张地图处理。必须使用其他可以拆分压缩文件的压缩算法,然后数据将由多个映射处理。这是一篇很好的文章。 (1)

编辑:这是另一篇来自 Google 的关于 Snappy (2) 的文章。

(1)http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2)http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-01-06
    • 2011-04-12
    • 1970-01-01
    • 1970-01-01
    • 2015-07-17
    • 1970-01-01
    • 2018-05-21
    • 1970-01-01
    相关资源
    最近更新 更多