【问题标题】:How to launch N times a script Pig using oozie?如何使用 oozie 启动 N 次脚本 Pig?
【发布时间】:2015-03-16 10:13:43
【问题描述】:

我需要处理很多带有特定日期的文件。我只找到一个解决方案,即每次使用不同的数据集启动 N 次作业。使用的分区基于 yyyy、mm、dd。我有一个 java 操作,可以生成用于每个数据的良好分区。

我的问题是,如何创建一个循环来启动我的脚本 N 次?我今天使用 oozie 工作流程。

谢谢

【问题讨论】:

    标签: hadoop workflow apache-pig oozie


    【解决方案1】:

    这听起来像是coordinators 的用例。

    您可以声明 Datasets 并让 oozie 在特定数据集实例可用时自动启动工作流。

    【讨论】:

    • 这个。通过描述包含年、月和日的 URI 来声明数据集,并给它一个频率(例如 1 天)。然后,您可以使用该数据集的一个或多个实例作为输入来开始您的猪工作。例如,这允许您通过指定起始实例 (${coord:current(-10)}) 和结束实例 (${coord:current(0)}) 来使用最后 x 个实例作为输入。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-09-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多