【问题标题】:Access HDFS in Remote Cluster访问远程集群中的 HDFS
【发布时间】:2018-11-05 10:05:53
【问题描述】:

目前,我有一个远程 Hadoop 集群。当我尝试通过namenode访问datanode中的数据时,namenode会将我重定向到datanode。 但是,返回的datanode域名只能在该集群内部被识别。此外,我无法在客户端修改/etc/hosts

我可以配置 namenode 以使用任何 IP 或域重定向我吗? 用于记录要返回的域的namenode在哪里?

【问题讨论】:

  • hadoop.security.token.service.use_ip=false 可以帮忙
  • 不确定我是否理解您的最后一个问题。客户端需要直接联系数据节点。这就是读取/写入数据的方式。

标签: hadoop hdfs


【解决方案1】:

我相信您需要的是Gateway 服务器(也称为EdgeNode)。那里有几个教程。

在您的特定情况下,您的服务器持有 namenode 也将持有 EdgeNode。

有两个特定的项目可以实现这一目标:

  1. 使用 SOCKS 代理。 Using Hadoop through a SOCKS proxy?
  2. 使用 HTTPFS:https://hadoop.apache.org/docs/r2.4.1/hadoop-hdfs-httpfs/index.html

【讨论】: