【发布时间】:2020-01-06 12:23:05
【问题描述】:
我们正在使用 Prometheus-Grafana。现在我们要设置 CPU 平均负载为 5 分钟的警报。
我们有 60 台具有不同 CPU 核心的服务器,例如很少有机器有 1 核、2 核、6 核、8 核等。
以下规则将给出加载 5 分钟的结果。但它不会区分机器是单核还是多核。
- name: alerting_rules
rules:
- alert: LoadAverage15m
expr: node_load5 >= 0.75
labels:
severity: major
annotations:
summary: "Instance {{ $labels.instance }} - high load average"
description: "{{ $labels.instance }} (measured by {{ $labels.job }}) has high load average ({{ $value }}) over 5 minutes."
我尝试了以下规则,但它也不起作用:
- alert: LoadAverage5minutes
expr: node_load5/count(node_cpu{mode="idle"}) without (cpu,mode) >= 0.95
for: 5m
labels:
severity: warning
annotations:
summary: "Load average is high for 5 minutes (instance {{ $labels.instance }})"
description: "Load is high \n VALUE = {{ $value }}\n LABELS: {{ $labels }}"
你能帮我在我的规则中进行哪些更改,以便它可以工作。
谢谢。
【问题讨论】:
标签: prometheus prometheus-alertmanager