【问题标题】:PromQl: alert on first value of a counterPromQl:对计数器的第一个值发出警报
【发布时间】:2020-09-04 03:40:54
【问题描述】:

我有一个 prometheus 计数器 (spring_batch_job_seconds_count{status=~'FAILED'}) 来计算作业失败。我想随着时间的推移绘制作业失败并警告作业失败。除了第一次出现之外,增加功能给了我我想要的东西。在发生故障之前不会发布计数器,因此第一个故障事件不会增加(或增量或速率),因为没有先前的计数器值 0 可与第一个非零计数器值进行比较。如何创建一个图表来显示第一次故障发生(以及随后的故障发生)以及将在第一次故障发生时触发的相应警报(以及未来的故障发生)?我可能愿意接受两个警报:一个在计数器增加时触发,另一个在第一次出现时触发,但我不想在第一次出现时手动关闭它触发后触发的警报第一次。

【问题讨论】:

  • 您可以更改检测代码吗?如果是,只需将指标初始化为增量 0。

标签: spring monitoring alerts promql spring-micrometer


【解决方案1】:

我设法用 falco 指标做到了这一点。

我想提醒任何变化,即使是第一次出现指标。

(sum(falco_events{k8s_pod_name="runner"} or falco_events{} * 0) by (k8s_pod_name, rule) - sum(falco_events{k8s_pod_name="runner"} offset 5m or falco_events{} * 0) by (k8s_pod_name, rule))

解决方法:https://github.com/prometheus/prometheus/issues/1673

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-05-27
    • 1970-01-01
    • 2019-11-27
    • 2023-02-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多