【发布时间】:2021-08-07 02:50:45
【问题描述】:
我有一个由 3 个工作节点组成的 Airflow 集群,其中 CeleryExecutor 和 RabbitMQ 用于通信。 我的 DAG 通常由下载文件、解压缩文件、上传到 hadoop 等任务组成。因此它们相互依赖并且必须在单个机器/节点上运行。
当气流调度单个 DAG 的这些任务时,在不同的节点上,我最终会出错,因为这些任务被调度在不同的机器上,但我需要将 DAG 中的所有任务调度在一个单机。
我尝试在气流.cfg 和初始化 dag 时设置 dag_concurrency = 1 和 max_active_runs_per_dag = 1,但没有成功。
我的气流.cfg 的其余部分:
parallelism = 32
dag_concurrency = 1
worker_concurrency = 16
max_active_runs_per_dag = 16
据我了解,将 dag_concurrency 设置为 1 应该可以解决问题,但我在这里缺少什么?
【问题讨论】:
标签: python airflow-scheduler airflow