【发布时间】:2018-02-27 14:45:24
【问题描述】:
我在本地 HDFS 安装中有大量数据。我想将其中的一部分迁移到 Google Cloud(云存储),但我有一些顾虑:
- 如何实际移动数据?
- 我担心在公共互联网上移动它
将数据从我的 HDFS 存储安全地移动到云存储的最佳方法是什么?
【问题讨论】:
标签: hadoop hdfs cloud google-cloud-dataproc
我在本地 HDFS 安装中有大量数据。我想将其中的一部分迁移到 Google Cloud(云存储),但我有一些顾虑:
将数据从我的 HDFS 存储安全地移动到云存储的最佳方法是什么?
【问题讨论】:
标签: hadoop hdfs cloud google-cloud-dataproc
要将数据从本地 Hadoop 集群移动到 Google Cloud Storage,您可能应该使用Google Cloud Storage connector for Hadoop。您可以按照install directions 在任何集群中安装连接器。注意,Google Cloud Dataproc 集群默认安装了连接器。
安装连接器后,您可以使用DistCp 将数据从 HDFS 移动到云存储。这将通过(公共)互联网传输数据,除非您使用 Google Cloud 进行了特殊的互连设置。为此,您可以使用squid proxy 并配置云存储连接器to use it。
【讨论】: