【发布时间】:2017-05-29 14:00:17
【问题描述】:
我有一个目录,其中包含许多我想从 hdfs 压缩和导出到 fs 的文件和子目录。
我遇到了这个问题 - Hadoop: compress file in HDFS? ,但它似乎只与文件相关,并且使用 hadoop-streaming 和 GzipCodec 没有让我在目录方面取得成功。
为什么将 HDFS 文件夹压缩为单个 gzip 文件最有效的方法是什么?
提前致谢。
【问题讨论】:
-
即使在 Unix 的 FS 上,你也不能
gzip一个目录。您需要先将其转换为tar/har或类似的名称,然后执行压缩。 -
@philantrovert 当然可以,但是您对如何操作有什么建议吗?
-
我建议使用 apache commons Api 编写一个 Java 程序。它有像
TarArchiveOutputStream这样的类,你可以查看它们。
标签: hadoop compression hdfs gzip hadoop-streaming