【发布时间】:2021-01-10 14:49:35
【问题描述】:
我有一个警报,用于跟踪单个 ALB 中 LoadBalancer 5xx 错误的指标。如果过去 1 中的 1 个数据点高于阈值 2,这应该处于“警报中”状态。周期设置为 1 分钟。查看报警详情:
2020 年 9 月 23 日 17:18 UTC,负载均衡器开始返回 502 错误。这显示在下面的 Cloudwatch 指标图表中,我已经确认时间是正确的(这是一个强制的 502 响应,所以我知道我什么时候触发了它,我可以在 ALB 日志中看到 17:18 时间戳)
但在警报日志中,“警报中”状态仅在 UTC 时间 17:22 触发 - 在 17:18 时段出现超过 2 个错误后的 4 分钟。这不是接收通知的延迟——与我的预期相比,这是关于状态变化的延迟。在状态更改后的几秒钟内正确接收到通知。
我们认为缺失数据为 GOOD,因此根据指标图,我假设它应该在 17:22 恢复到 OK(在 17:21 之后出现 0 个错误),但仅在 17:27 恢复到 OK -延迟 5 分钟。
然后我预计它会在 17:24 返回“处于警报状态”,但直到 17:28 才返回。
最后,我预计它会在 17:31 恢复正常,但直到 17:40 - 整整 9 分钟。
为什么在我预期状态转换和实际发生之间会有 4-9 分钟的延迟?
【问题讨论】:
标签: amazon-web-services monitoring amazon-cloudwatch