【发布时间】:2011-04-12 04:00:17
【问题描述】:
我是 hadoop 新手,正在尝试处理*转储。这是一个 6.7 GB gzip 压缩的 xml 文件。我读到 hadoop 支持 gzip 压缩文件,但只能由映射器在单个作业上处理,因为只有一个映射器可以解压缩它。这似乎对处理施加了限制。有替代方案吗?比如将 xml 文件解压并拆分成多个块,然后用 gzip 重新压缩它们。
我从http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html读到了有关hadoop gzip的信息
感谢您的帮助。
【问题讨论】:
标签: java algorithm data-structures hadoop mapreduce