【发布时间】:2020-11-14 10:49:27
【问题描述】:
我们在几个 DAG 中有几个长时间运行的任务(超过 100 小时)。这些任务在内部调用一个 http 端点来启动一个进程,然后在一个循环中轮询状态 + 睡眠 30 秒。大约 40 小时左右后,Airflow 将作业标记为失败,但日志中没有说明原因 - 为任务运行打印的最后一项是“睡眠 30 秒”语句”。触发的 http 进程也是启动并运行。
提前致谢
【问题讨论】:
-
问题已解决 - 我们的 Openshift pod 由于部署导致工作人员、调度程序和网络服务器退出而重新启动。感谢大家的投入
-
你是怎么解决的?我也有类似的问题:stackoverflow.com/questions/63141944/…