【问题标题】:Tool/Ways to schedule Amazon's Elastic MapReduce jobs安排 Amazon 的 Elastic MapReduce 作业的工具/方法
【发布时间】:2012-12-10 11:18:06
【问题描述】:

我使用 EMR 创建新实例并处理作业,然后关闭实例。

我的要求是定期安排工作。一种简单的实现方式是使用石英来触发 EMR 作业。但从长远来看,我有兴趣使用开箱即用的 mapreduce 调度解决方案。我的问题是 EMR 或 AWS-SDK 是否提供任何开箱即用的调度功能,我可以使用它来满足我的要求吗?我可以看到 Auto Scaling 中有调度,但我想改为调度 EMR 作业流。

【问题讨论】:

    标签: mapreduce hadoop-streaming elastic-map-reduce emr


    【解决方案1】:

    Apache Oozie Workflow Scheduler for Hadoop 可以做到这一点。

    Oozie 是一个用于管理 Apache Hadoop 作业的工作流调度系统。

    Oozie 工作流作业是动作的有向无环图 (DAG)。

    Oozie Coordinator 作业是经常性的 Oozie Workflow 作业,由 时间(频率)和数据可用性。

    Oozie 与支持的 Hadoop 堆栈的其余部分集成在一起 开箱即用的几种类型的 Hadoop 作业(例如 Java map-reduce, 流式 map-reduce、Pig、Hive、Sqoop 和 Distcp)以及系统 特定的作业(例如 Java 程序和 shell 脚本)。

    Oozie 是一个可扩展、可靠且可扩展的系统。

    以下是用于配置 apache oozie 的 Elastic Map Reduce 引导操作的简单示例:https://github.com/lila/emr-oozie-sample

    但是要让您知道 oozie 有点复杂,当且仅当您有很多工作要安排/监控/维护时,那么只有您应该选择oozie,否则只需创建一堆cron如果您说要定期安排 2 或 3 个作业,则作业。

    您也可以查看和探索simple workflow from Amazon

    【讨论】:

    • 非常感谢您的快速回复。肯定会结帐oozie。你有什么例子吗?我可以弄清楚如何在 EMR 上使用它,因为关于 oozie 的原始文档没有导致它。
    • 是的,已经更新了答案,以包含一个您需要的示例链接。
    • 非常感谢 Amar。
    • 但是要让你知道 oozie 有点复杂,当且仅当你有很多工作要安排/监控/维护时,只有你才会去 oozie。
    • 更新了我的答案以包含该信息。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-02-10
    • 1970-01-01
    • 1970-01-01
    • 2012-05-09
    • 1970-01-01
    相关资源
    最近更新 更多