【问题标题】:Does AWS EFS can be accessed from multiple Hadoop clusters是否可以从多个 Hadoop 集群访问 AWS EFS
【发布时间】:2018-04-04 05:51:58
【问题描述】:

我可以理解 EFS 可以挂载到多个 EC2 实例。

是否可以从多个 Hadoop 集群连接到 AWS EFS?

或者它是否附加到特定的集群?

我们可以使用 API 连接到 Hadoop 集群之外的 EFS 吗?

【问题讨论】:

  • “集群”和“集群外”是什么意思?什么簇?
  • @JohnRotenstein:我指的是 Cloudera、HortonWorks 等任何发行版
  • 啊!您正在谈论 Hadoop 集群。你的问题没有提到这一点。我认为将 Amazon EFS 与 Hadoop 集群一起使用是不明智的,因为每个集群都管理自己的 HDFS,如果多个集群尝试管理一个 HDFS 存储,事情可能会变得混乱。你希望完成什么?
  • @JohnRotenstein:我们正在为我们的 Hadoop 集群选择文件系统,比如 S3 或 HDFS(EBS,本地存储)还是 EFS?我们正在使用 Cloudera。
  • @JohnRotenstein:我希望即使我使用 EFS,Hadoop 集群也会在此基础上创建 HDFS..

标签: amazon-ec2 amazon-efs


【解决方案1】:

您正在为您的 Hadoop 集群使用 Cloudera 发行版,因此您可以随意配置。

作为比较,Amazon EMR(AWS 托管 Hadoop 服务)的用户通常从两种存储类型中进行选择:

  • 实例存储:这是直连磁盘存储,所以速度非常快。某些实例类型(例如 m3、d2)提供大容量磁盘存储,非常适合 HDFS。其他实例类型提供非常快的 SSD 存储,但通常尺寸较小。请注意,当 EMR 集群终止时,Instance Store 的内容会丢失。
  • EBS 卷:这些是网络附加磁盘,可提供更大的存储空间(每个卷最多 16TB)。同样,当 EMR 集群终止时,内容会丢失。 EBS 卷和实例存储也可以一起使用。

对于 EMR(同样,不是您的情况),用户将输入和输出数据保存在 Amazon S3 中作为持久数据存储。这样,集群终止时数据不会丢失。好处是集群可以在不使用时关闭(因此可以节省资金),并且在需要更多处理能力时可以启动额外的集群。这在集群永久保留且无法扩展或缩减的传统本地设置中是不可能的。

那么,回到您的 Cloudera 集群...您可能会使用 HDFS 作为您的存储,在这种情况下,您需要附加磁盘存储。您还可以选择使用 S3 来存储数据,这比磁盘存储更便宜。

是的,您可以通过 NTFS 附加 Amazon EFS 卷,但 EFS 通常用于在 EC2 实例之间共享磁盘,这不是 HDFS 的操作方式(它假定本地附加磁盘与分布式共享发生在 NodeManager 级别)。

我建议您调查一下您是否可以使用 Amazon EMR 而不是部署自己的 Hadoop 集群,因为它具有扩展、临时集群、自动部署和定期升级的优势。如果您必须使用 Cloudera,您将自己负责管理和维护集群。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-02-03
    • 2020-08-06
    • 1970-01-01
    • 1970-01-01
    • 2013-08-14
    • 1970-01-01
    • 2017-04-23
    相关资源
    最近更新 更多