Hadoop gzip输入文件仅使用一个映射器[重复]答案

【问题标题】：Hadoop gzip input file using only one mapper [duplicate]Hadoop gzip输入文件仅使用一个映射器[重复]
【发布时间】：2016-01-06 13:49:12
【问题描述】：

可能重复：
Why can't hadoop split up a large text file and then compress the splits using gzip?

我发现当使用 gzip 压缩的输入文件时，Hadoop 选择仅分配一个地图任务来处理我的地图/减少作业。

gzip 压缩文件超过 1.4 GB，因此我希望许多映射器可以并行运行（就像使用未压缩文件时一样）

我可以做任何配置来改进它吗？

【问题讨论】：

【解决方案1】：

Gzip 文件无法拆分，因此所有数据仅由一张地图处理。必须使用其他可以拆分压缩文件的压缩算法，然后数据将由多个映射处理。这是一篇很好的文章。 (1)

编辑：这是另一篇来自 Google 的关于 Snappy (2) 的文章。

【讨论】：