【问题标题】:Load files from Google Cloud Storage to on premise Hadoop cluster将文件从 Google Cloud Storage 加载到本地 Hadoop 集群
【发布时间】:2019-03-24 16:55:53
【问题描述】:

我正在尝试将 Google Cloud Storage 文件加载到本地 Hadoop 集群。我开发了一个解决方法(程序)来将本地 EdgeNode 和 distcp 上的文件下载到 Hadoop。但这似乎是双向的解决方法,并没有太大的印象。我浏览了几个网站(links1link2),这些网站总结了使用 Hadoop Google Cloud Storage 连接器进行此类过程并且需要基础架构级别的配置,这在所有情况下都是不可能的。

有没有办法使用 Python 或 Java 以编程方式将文件直接从 Cloud Storage 复制到 Hadoop。

【问题讨论】:

  • 只要将 GCS 凭据添加到 core-site.xml 中,您应该能够直接从 GCS 使用 distcp 到 Hadoop,否则,是的,您可以使用 Spark 或本机 Hadoop API 从GCS 到 HDFS 的 outputStreams
  • @cricket_007 - 我认为distcp 将需要基础设施级别的配置。我不确定它是否会被允许。你有使用 Spark 的示例吗?
  • 不确定您所说的“基础设施配置”是什么意思......从 GCS 读取的任何 Spark 示例都可以工作。然后将数据帧或 RDD 写入 HDFS
  • 在您的 Hadoop 集群上安装云存储连接器是您可以接受的解决方案吗? - cloud.google.com/dataproc/docs/concepts/connectors/…

标签: hadoop google-cloud-platform google-cloud-storage


【解决方案1】:

要以编程方式执行此操作,您可以直接使用 Cloud Storage API client libraries 从 Cloud Storage 下载文件并将其保存到 HDFS。

但是在您的本地 Hadoop 集群上install Cloud Storage connector 并使用 DistCp 将文件从 Cloud Storage 下载到 HDFS 会更加简单和容易。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-10-07
    • 2018-04-22
    • 2018-03-28
    • 2019-11-23
    • 1970-01-01
    • 2016-02-03
    • 1970-01-01
    • 2014-07-27
    相关资源
    最近更新 更多