【问题标题】:AWS EMR Hadoop AdministrationAWS EMR Hadoop 管理
【发布时间】:2015-05-26 04:35:48
【问题描述】:

我们目前在我们的组织中使用 Apache Hadoop(Vanilla 版本)。我们计划迁移到 AWS EMR。我试图了解 AWS EMR Hadoop 如何在内部工作(而不是如何使用它),我主要对 Hadoop 管理步骤以及主从如何通信以及各种配置配置感兴趣。我已经查看了 AWS EMR 文档,但没有看到详细的比较。

有人可以向我推荐一个从 Apache Hadoop 迁移到 AWS EMR 的链接/教程吗?

【问题讨论】:

  • 你的团队有看过 Qubole 吗?我们有许多客户从内部 Hadoop 和 EMR 迁移过来,并从自动扩展、现场实例集成以及总体上卓越的性能和管理中受益匪浅。

标签: hadoop amazon-web-services emr


【解决方案1】:

在 EMR 集群创建过程中,它会要求您指定 Master 和 Node。默认设置将为您提供 1 个主节点和两个节点。您还可以指定您希望集群中的所有应用程序(例如:hadoop、hive、spark、zeppelin、hue 等)。

创建集群后,它将提供所有服务。您可以单击这些服务并通过 Web 访问它们,或者使用 ssh 进入主服务器。例如:要访问 ambari 界面,请转到 EMR 中的服务并单击它。将使用 ambari 监控服务界面启动一个新窗口。

安装这些应用程序非常简单。您所要做的就是在创建集群时指定所有服务。

【讨论】:

    【解决方案2】:

    Amazon Elastic MapReduce 使用 Hadoop 和相关工具的大部分标准实施。

    见:AMI Versions Supported in Amazon EMR

    使用 EMR 的好处在于自动部署实例。例如,使用适当的 AMI 启动集群意味着软件已加载到每个实例上,并且 HDFS 已跨核心节点进行配置。

    主节点和从节点(核心/任务)节点的通信方式与它们在任何 Hadoop 集群中的通信方式完全相同。但是,仅支持一个 Master(没有备份 Master)。

    迁移到 EMR 时,请检查您是否使用兼容版本的软件(例如 Hadoop、Hive、Pig、Impala 等)。还可以考虑使用 Amazon S3 而非 HDFS 来存储数据,尤其是用于存储源数据,因为 S3 上的数据即使在 EMR 集群终止后仍然存在。

    【讨论】:

      【解决方案3】:

      从技术上讲,与 EMR 一起提供的 Hadoop 可以回溯几个版本。您应该查看 EMR 发行说明,了解每个版本提供的详细应用程序。 EMR 负责应用程序的供应、设置和配置。根据 EC2 实例类型,Hadoop(和其他应用程序配置)会发生变化。您可以使用配置应用程序覆盖默认设置。

      除此 Hadoop 外,您的本地部署和 EMR 应该相同。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2020-08-12
        • 1970-01-01
        • 2017-03-25
        • 1970-01-01
        • 2017-05-25
        • 1970-01-01
        • 1970-01-01
        • 2016-07-23
        相关资源
        最近更新 更多