【问题标题】:Copy and unzip from S3 to HDFS从 S3 复制并解压到 HDFS
【发布时间】:2016-11-23 05:40:56
【问题描述】:

我在 S3 上有几个大的 zip 文件。这些 zip 文件中的每一个都包含几个 gz 文件,其中包含 JSON 格式的数据。我需要 (i) 将 gz 文件复制到 HDFS 并 (ii) 最好通过 Apache Spark/Impala/Hive 处理文件。最简单/最好的方法是什么?

【问题讨论】:

    标签: json apache-spark amazon-s3 zip gzip


    【解决方案1】:

    1) 尝试使用 distcp 将文件从 s3 复制到 HDFS

    2) 对于处理,使用“org.apache.spark.sql.hive.HiveContext”的read.json 从 HDFS 读取 JSON 数据并创建数据帧。 然后对其进行任何操作。

    点击此链接, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes

    【讨论】:

    • 如何在 HDFS 上“解压”压缩文件?我可以使用 Spark 以编程方式完成吗?怎么样?
    猜你喜欢
    • 2020-12-22
    • 2014-07-08
    • 2019-12-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-02-12
    相关资源
    最近更新 更多