【问题标题】:How to get "UP" metric count=0 for last week from Prometheus?如何从 Prometheus 获得上周的“UP”指标计数 = 0?
【发布时间】:2021-04-13 15:31:22
【问题描述】:

我想知道上周给定工作的“UP”指标是 0 的多少倍? 我正在使用以下查询

up{job="XYX"} == 0

这列出了一些条目,其中它是 0,但不清楚这些警报何时被触发。 如何计算过去一周内所有值为 0 的“UP”指标,我想从中得出结论,上周服务器宕机的次数。

【问题讨论】:

    标签: alert monitoring prometheus


    【解决方案1】:

    我认为您正在寻找可用性指标。

    使用以下查询了解上周 XYZ 作业可用的百分比:

    100*avg_over_time(up{job="XYZ"}[1w])
    

    如果您想知道不可用,只需执行以下操作:

    100-100*avg_over_time(up{job="XYZ"}[1w])
    

    【讨论】:

    • 它不打印任何东西,如果 UP 指标为 0 15 秒,我会触发一个警报,正如我在上面分享的那样。当我按警报名称求和时,它只显示上周的 1 个计数但是有 10-15 封电子邮件通知用于警报触发,我想获得所有此类通知的总和
    • 我在答案中使用了错误的指标,我刚刚修复了它。
    • 我正在尝试获得一些东西 stackoverflow.com/questions/65617748/… ,请参阅我的评论
    • 好的,但是这个问题呢?答案有用吗?
    • 它向我展示了一些指标,我认为它是可用性指标,但它向我展示了一份工作。所以我有两个名称不同的警报,它们的工作名称相同。那么我怎么知道这个可用性是针对哪个警报的?一个警报是针对服务器运行状况监视器的,另一个是针对服务器有内部故障的,例如外部依赖,所以相同的作业名称和两个不同的警报,这个查询到底会告诉我什么?跨度>
    猜你喜欢
    • 1970-01-01
    • 2021-04-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-20
    相关资源
    最近更新 更多