【问题标题】:MWAA in productions - tasks queued for unknown reasons生产中的 MWAA - 任务因未知原因排队
【发布时间】:2022-06-18 01:08:43
【问题描述】:
有人在生产中使用 MWAA 吗?
我们目前有大约 500 个 DAG 正在运行,并且我们看到了一种意外行为,即由于未知原因,任务处于“排队”状态。
任务处于“排队”状态,对于
执行。必须清除任务才能运行。
它是随机发生的,可以完美运行一天,然后一些任务会一直排队。除非我们手动将它们标记为失败,否则这些任务将永远保持这种状态。
即使池为空,DAG 运行也可以保持这种“排队”状态,我看不出有什么原因可以解释这一点。
大约 5% 的任务会发生这种情况,而其他所有任务都运行顺利。
你遇到过这种行为吗?
【问题讨论】:
标签:
airflow
airflow-scheduler
airflow-2.x
mwaa
【解决方案1】:
这在 MWAA 中也发生在我身上。 AWS 向我推荐的解决方案是通过 Web UI 向 Airflow 配置选项 添加以下选项:
celery.sync_parallelism = 1
core.dag_file_processor_timeout = 150
core.dagbag_import_timeout = 90
core.min_serialized_dag_update_interval = 300
scheduler.dag_dir_list_interval = 600
scheduler.min_file_process_interval = 300
scheduler.parsing_processes = 2
scheduler.processor_poll_interval = 60