【发布时间】:2016-01-06 13:49:12
【问题描述】:
可能重复:
Why can't hadoop split up a large text file and then compress the splits using gzip?
我发现当使用 gzip 压缩的输入文件时,Hadoop 选择仅分配一个地图任务来处理我的地图/减少作业。
gzip 压缩文件超过 1.4 GB,因此我希望许多映射器可以并行运行(就像使用未压缩文件时一样)
我可以做任何配置来改进它吗?
【问题讨论】: