【问题标题】:Setting up a Hadoop Cluster on Amazon Web services with EBS使用 EBS 在 Amazon Web 服务上设置 Hadoop 集群
【发布时间】:2017-07-28 16:44:49
【问题描述】:
我想知道如何通过 AWS 设置一个 hadoop 集群(比如 5 个节点)。我知道如何在 EC2 上创建集群,但我不知道如何面对以下挑战。
- 如果我丢失了我的 Spot 实例会发生什么。如何保持集群运行。
- 我正在处理一些大小为 1TB 的数据集。是否可以相应地设置 EBS。在这种情况下如何访问 HDFS。
任何帮助都会很棒!
【问题讨论】:
标签:
apache
amazon-web-services
hadoop
hdfs
impala
【解决方案1】:
根据您的要求,这些建议会有所变化。但是,假设有 2 个 Master 和 3 Worker 设置,您可能可以将 r3 实例用于 Master 节点,因为它们是内存密集型应用程序优化的,而 d2 实例用于工作节点。 d2 实例有多个本地磁盘,因此可以承受一些磁盘故障,同时仍然保持数据安全。
要回答您的具体问题,
- 将 Hadoop 机器视为任何 linux 应用程序。如果您的通用 centOS Spot 实例丢失会怎样? Hwnce,一般建议使用预留实例。
- Hadoop 通常通过维护 3 个副本并以 128 或 256 MB 块的形式将它们分布在工作节点上来存储数据。因此,您将有 3TB 数据存储在三个工作节点上。显然,在计算空间需求时,您必须考虑一些开销。