是否可以从多个 Hadoop 集群访问 AWS EFS答案

【问题标题】：Does AWS EFS can be accessed from multiple Hadoop clusters是否可以从多个 Hadoop 集群访问 AWS EFS
【发布时间】：2018-04-04 05:51:58
【问题描述】：

我可以理解 EFS 可以挂载到多个 EC2 实例。

是否可以从多个 Hadoop 集群连接到 AWS EFS？

或者它是否附加到特定的集群？

我们可以使用 API 连接到 Hadoop 集群之外的 EFS 吗？

【问题讨论】：

“集群”和“集群外”是什么意思？什么簇？
@JohnRotenstein：我指的是 Cloudera、HortonWorks 等任何发行版
啊！您正在谈论 Hadoop 集群。你的问题没有提到这一点。我认为将 Amazon EFS 与 Hadoop 集群一起使用是不明智的，因为每个集群都管理自己的 HDFS，如果多个集群尝试管理一个 HDFS 存储，事情可能会变得混乱。你希望完成什么？
@JohnRotenstein：我们正在为我们的 Hadoop 集群选择文件系统，比如 S3 或 HDFS（EBS，本地存储）还是 EFS？我们正在使用 Cloudera。
@JohnRotenstein：我希望即使我使用 EFS，Hadoop 集群也会在此基础上创建 HDFS..

【解决方案1】：

您正在为您的 Hadoop 集群使用 Cloudera 发行版，因此您可以随意配置。

作为比较，Amazon EMR（AWS 托管 Hadoop 服务）的用户通常从两种存储类型中进行选择：

实例存储：这是直连磁盘存储，所以速度非常快。某些实例类型（例如 m3、d2）提供大容量磁盘存储，非常适合 HDFS。其他实例类型提供非常快的 SSD 存储，但通常尺寸较小。请注意，当 EMR 集群终止时，Instance Store 的内容会丢失。
EBS 卷：这些是网络附加磁盘，可提供更大的存储空间（每个卷最多 16TB）。同样，当 EMR 集群终止时，内容会丢失。 EBS 卷和实例存储也可以一起使用。

对于 EMR（同样，不是您的情况），用户将输入和输出数据保存在 Amazon S3 中作为持久数据存储。这样，集群终止时数据不会丢失。好处是集群可以在不使用时关闭（因此可以节省资金），并且在需要更多处理能力时可以启动额外的集群。这在集群永久保留且无法扩展或缩减的传统本地设置中是不可能的。

那么，回到您的 Cloudera 集群...您可能会使用 HDFS 作为您的存储，在这种情况下，您需要附加磁盘存储。您还可以选择使用 S3 来存储数据，这比磁盘存储更便宜。

是的，您可以通过 NTFS 附加 Amazon EFS 卷，但 EFS 通常用于在 EC2 实例之间共享磁盘，这不是 HDFS 的操作方式（它假定本地附加磁盘与分布式共享发生在 NodeManager 级别）。

我建议您调查一下您是否可以使用 Amazon EMR 而不是部署自己的 Hadoop 集群，因为它具有扩展、临时集群、自动部署和定期升级的优势。如果您必须使用 Cloudera，您将自己负责管理和维护集群。

【讨论】：