【问题标题】:What does the Environment health in google composer environment mean谷歌作曲家环境中的环境健康是什么意思
【发布时间】:2021-04-02 22:11:15
【问题描述】:
在 google composer 环境中,有一个标签 - Monitoring,其中有 Environment Overview 部分,第一个指标是 Environment health。
我在谷歌文档中读过这个:
环境健康 显示 Composer 部署健康状况的时间线。绿色状态并不意味着所有 Airflow 组件都可以运行并且 DAG 能够运行 - 它仅反映 Composer 部署的状态。
但不确定环境出了什么问题,以及当它发生时如何修复它。
尽管我的 环境健康状况 显示不健康,但所有其他指标都健康,甚至气流 dags 也在运行。那么您能否解释一下这种环境健康的不健康状态是什么意思,对气流数据管道有什么影响以及如何解决它。
【问题讨论】:
标签:
google-cloud-platform
google-compute-engine
airflow
google-cloud-composer
【解决方案1】:
环境运行状况时间线表明您的环境是否能够运行预装在所有 Cloud Composer 环境中的非常简单的探测器 DAG (airflow_monitoring)。如果 DAG 成功运行并且指标收集器正确读取了其状态,则环境的运行状况将显示为绿色,否则将显示为红色。
一般来说,时间线可以很好地指示您的环境是否能够运行任务实例。但是,如果它显示为红色,而您的环境没有发现任何其他问题,则可能是您的环境中存在配置错误或更大的问题。
解决此问题的一些建议是确保 airflow_monitoring DAG 未暂停,并检查 Cloud Logging 中的 airflow-monitoring 日志类别。如果airflow_monitoring DAG 运行未成功完成,则建议您将其作为正常的 Airflow 问题进行故障排除,然后再查看 Composer 特定组件。
【解决方案2】:
环境运行状况指标取决于由 airflow-monitoring pod 定期触发的名为 airflow_monitoring 的 Composer 管理的 DAG。如果 DAG 未删除且未在 Airflow UI 中报告故障,请检查 airflow-monitoring 日志以查看是否存在与读取 DAG 运行状态相关的问题。
要检查环境的健康状况,您可以使用以下健康状况status metric: composer.googleapis.com/environment/healthy Cloud Composer 每 5 分钟运行一次名为 airflow_monitoring 的活跃度 DAG,并按如下方式报告环境健康状况:
当 DAG 运行成功完成时,健康状态为 True。如果 DAG 运行失败,则运行状况为 False。如果 DAG 运行未完成,Cloud Composer 每 5 分钟轮询一次 DAG 的状态,如果发生一小时超时,则报告 False。 liveness DAG 存储在 dags/ 文件夹中,并且在 Airflow Web UI 中可见。 liveness DAG 的频率和内容是不可变的,不应修改,因为更改不会持续存在。
您可以通过 [1] 了解更多详细信息。
[1]https://cloud.google.com/composer/docs/how-to/managing/monitoring-environments#environment