【发布时间】:2015-03-16 10:13:43
【问题描述】:
我需要处理很多带有特定日期的文件。我只找到一个解决方案,即每次使用不同的数据集启动 N 次作业。使用的分区基于 yyyy、mm、dd。我有一个 java 操作,可以生成用于每个数据的良好分区。
我的问题是,如何创建一个循环来启动我的脚本 N 次?我今天使用 oozie 工作流程。
谢谢
【问题讨论】:
标签: hadoop workflow apache-pig oozie
我需要处理很多带有特定日期的文件。我只找到一个解决方案,即每次使用不同的数据集启动 N 次作业。使用的分区基于 yyyy、mm、dd。我有一个 java 操作,可以生成用于每个数据的良好分区。
我的问题是,如何创建一个循环来启动我的脚本 N 次?我今天使用 oozie 工作流程。
谢谢
【问题讨论】:
标签: hadoop workflow apache-pig oozie
这听起来像是coordinators 的用例。
您可以声明 Datasets 并让 oozie 在特定数据集实例可用时自动启动工作流。
【讨论】: