【发布时间】:2019-11-08 08:36:37
【问题描述】:
我正在使用进程导出器来监视进程,然后在进程使用过多 CPU 时发出警报。
这是我在 prometheus 仪表板中的监控 CPU 代码
sum(rate(namedprocess_namegroup_cpu_seconds_total{groupname=~"$processes",instance="$host", mode=~"system|user"}[20s])) by (groupname, instance)
我已经尝试用这个写警报(首先测试 10% CPU)
- name: process
rules:
- alert: CPUProcess
expr: sum(rate(namedprocess_namegroup_cpu_seconds_total[20s])) by (groupname, instance) > 10
for: 1m
labels:
severity: critical
annotations:
summary: "(instance {{ $labels.instance }}) use too much CPU"
description: "Process (instance {{ $labels.groupname }}) use high CPU"
但是好像不行(另外一个警报可以正常工作),能否给我一个建议,谢谢。
【问题讨论】:
标签: prometheus-alertmanager prometheus-process-exporter