【发布时间】:2023-12-23 21:25:02
【问题描述】:
我在 S3 上有一个 17.7GB 的文件。它是作为 Hive 查询的输出生成的,并且没有被压缩。
我知道通过压缩它大约有 2.2GB (gzip)。当传输成为瓶颈(250kB/s)时,如何尽快在本地下载此文件。
我没有找到任何直接的方法来压缩 S3 上的文件,或者在 s3cmd、boto 或相关工具中启用传输压缩。
【问题讨论】:
-
您是否能够通过重新运行 Hive 查询来重新生成此文件?如果是,我建议为您的 Hive 查询启用输出压缩。
-
@CharlesMenguy:我实际上是第一次这样做(我想)。然而,语句中有一个
order by,这影响了输出。通常我会为每个映射作业获取一个文件,但我从 reduce 中得到一个文件,我认为这是完成排序的地方。 -
您是如何在查询中启用输出压缩的?我认为您应该能够压缩几乎任何 Hive 查询的输出,无论是否存在
order by。我假设您通过insert overwrite directory 's3n://...'写信给 S3,对吧?
标签: amazon-s3 compression hive file-transfer emr