从 S3 复制并解压到 HDFS

【问题标题】：Copy and unzip from S3 to HDFS从 S3 复制并解压到 HDFS
【发布时间】：2016-11-23 05:40:56
【问题描述】：

我在 S3 上有几个大的 zip 文件。这些 zip 文件中的每一个都包含几个 gz 文件，其中包含 JSON 格式的数据。我需要 (i) 将 gz 文件复制到 HDFS 并 (ii) 最好通过 Apache Spark/Impala/Hive 处理文件。最简单/最好的方法是什么？

【问题讨论】：

【解决方案1】：

1) 尝试使用 distcp 将文件从 s3 复制到 HDFS

2) 对于处理，使用“org.apache.spark.sql.hive.HiveContext”的read.json 从 HDFS 读取 JSON 数据并创建数据帧。然后对其进行任何操作。

【讨论】：