【发布时间】:2019-03-24 16:55:53
【问题描述】:
我正在尝试将 Google Cloud Storage 文件加载到本地 Hadoop 集群。我开发了一个解决方法(程序)来将本地 EdgeNode 和 distcp 上的文件下载到 Hadoop。但这似乎是双向的解决方法,并没有太大的印象。我浏览了几个网站(links1、link2),这些网站总结了使用 Hadoop Google Cloud Storage 连接器进行此类过程并且需要基础架构级别的配置,这在所有情况下都是不可能的。
有没有办法使用 Python 或 Java 以编程方式将文件直接从 Cloud Storage 复制到 Hadoop。
【问题讨论】:
-
只要将 GCS 凭据添加到 core-site.xml 中,您应该能够直接从 GCS 使用 distcp 到 Hadoop,否则,是的,您可以使用 Spark 或本机 Hadoop API 从GCS 到 HDFS 的 outputStreams
-
@cricket_007 - 我认为
distcp将需要基础设施级别的配置。我不确定它是否会被允许。你有使用 Spark 的示例吗? -
不确定您所说的“基础设施配置”是什么意思......从 GCS 读取的任何 Spark 示例都可以工作。然后将数据帧或 RDD 写入 HDFS
-
在您的 Hadoop 集群上安装云存储连接器是您可以接受的解决方案吗? - cloud.google.com/dataproc/docs/concepts/connectors/…
标签: hadoop google-cloud-platform google-cloud-storage