【发布时间】:2019-08-02 09:54:02
【问题描述】:
我的 DAG 计划每小时运行一次。我从 s3 源中提取每小时的数据并处理它们。有时任务需要一个多小时才能完成。那时,我错过了一个小时的数据。
示例: 下午 1:00 DAG 启动并运行了 2 小时。所以我的下一次 DAG 运行将参数设置为 3(3pm) 缺少 2pm 数据。换句话说,我如何调用任务并确保它每小时运行一次,一天运行 24 次
【问题讨论】:
-
你能发布一个你的 DAG 的例子吗? Airflow 中的并发 DAG 没有问题,即您的 DAG 在下午 2 点应该运行得非常好,即使 DAG@1pm 仍在运行......
-
@dorvak 你是对的。这是我的逻辑。我想每小时运行一次 dag,并且我正在根据 current_time 过去一个小时。我的气流环境在队列中只占用 4 个实例。因此,有时我将小时作为参数传递的任务实例会延迟(由于其他长时间运行的作业)。示例:
标签: airflow