【发布时间】:2016-11-26 01:46:02
【问题描述】:
一般来说,任何像 Gzip 这样的压缩格式,当与像 avro 和 sequence(文件格式)这样的容器文件格式一起使用时,都会使压缩格式可拆分。
这是否意味着容器格式的块会根据首选压缩方式(如 gzip)或其他方式进行压缩。有人可以解释一下吗?谢谢!
嗯,我认为这个问题需要更新。
更新:
我们是否有一种直接的方法可以将不可拆分的文件压缩格式(如 Gzip)的大文件转换为可拆分的文件(使用 Avro、Sequence 或 Parquet 等容器文件格式)以供 MapReduce 处理?
注意:我并不是要寻求解决方法,例如解压缩文件,然后使用可拆分的压缩格式再次压缩数据。
【问题讨论】:
标签: hadoop mapreduce hadoop2 avro parquet