【发布时间】:2020-09-04 03:40:54
【问题描述】:
我有一个 prometheus 计数器 (spring_batch_job_seconds_count{status=~'FAILED'}) 来计算作业失败。我想随着时间的推移绘制作业失败并警告作业失败。除了第一次出现之外,增加功能给了我我想要的东西。在发生故障之前不会发布计数器,因此第一个故障事件不会增加(或增量或速率),因为没有先前的计数器值 0 可与第一个非零计数器值进行比较。如何创建一个图表来显示第一次故障发生(以及随后的故障发生)以及将在第一次故障发生时触发的相应警报(以及未来的故障发生)?我可能愿意接受两个警报:一个在计数器增加时触发,另一个在第一次出现时触发,但我不想在第一次出现时手动关闭它触发后触发的警报第一次。
【问题讨论】:
-
您可以更改检测代码吗?如果是,只需将指标初始化为增量 0。
标签: spring monitoring alerts promql spring-micrometer