【问题标题】:Where can I find AMI for Hadoop on EC2?我在哪里可以找到 EC2 上的 AMI for Hadoop?
【发布时间】:2013-10-11 17:27:27
【问题描述】:

我正在尝试在 Amazon EC2 上永久设置 Hadoop。目前我正在做的是每天早上启动 EC2 实例并设置 Hadoop。有什么办法可以避免这个繁琐的步骤吗?我正在寻找一个可以加载到 EC2 上的 Hadoop 映像,这对我来说很容易。

我知道我可以将 EMR 用于 hadoop 服务。但我不知道如何在不提交作业流的情况下启动 EMR (hadoop) 集群。我的意思是我需要一个不运行任何作业的 hadoop 集群。

我的最终目标是运行像DistmapSeal 这样的生物信息学应用程序。要运行这些应用程序,有许多依赖项。所以我需要一个免费的hadoop集群来设置环境,然后运行这些应用程序。 我希望它清楚我想要做什么。

谢谢。

【问题讨论】:

    标签: linux hadoop amazon-web-services amazon-ec2 bioinformatics


    【解决方案1】:

    您可以执行以下操作之一:

    选项 1. 从 EBS 支持的 EC2 实例开始,使用您最喜欢的 Linux 发行版。继续安装您需要的 Hadoop 软件。根据您需要的实例类型(主/从/等)创建尽可能多的 EC2 实例。然后,您可以在 AWS 控制台中创建您自己的 AMI(右键单击 EC2 实例并单击“创建 AMI”)。然后,您可以根据此 AMI 启动您自己的实例,数量不限。您还可以从实例存储支持的实例创建 AMI,但这意味着将所有内容转储到 S3 并从那里创建一个 AMI。有很多关于这方面的教程,如果您需要指导,请发表评论:)

    选项 2. 从基于 Hadoop 的 AMI 开始,在完成您自己的配置/添加依赖项后重复上述步骤。我继续从 AWS 控制台搜索 Hadoop AMI,在 EU-West-1 中有 48 个(不确定您正在使用哪个区域)。

    选项 3. 以交互模式启动 EMR 集群。还有一个选项可以在完成作业流程后使集群保持活动状态。如果您还为 EMR 实例设置了 EC2 密钥,您应该能够通过 SSH 连接到它们并拥有一个功能正常的 Hadoop 集群(虽然不确定依赖关系,您可能最好自己滚动)。

    我希望我正确理解了您想要实现的目标,这对您有所帮助。

    【讨论】:

    • 我确实尝试了前两个选项;但我遇到了某种错误。最终我最终使用 Whirr 来设置 hadoop。到目前为止没有这样的问题。无论如何,感谢您的帮助。
    【解决方案2】:

    这更像是一个配置管理和自动化问题。尝试像厨师和木偶一样的 CMT,根据您的需要完成此操作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2023-03-14
      • 2021-07-31
      • 1970-01-01
      • 2012-08-30
      • 1970-01-01
      • 1970-01-01
      • 2014-07-16
      相关资源
      最近更新 更多