【发布时间】:2019-01-30 10:50:56
【问题描述】:
我通过prometheus helm chart使用图表的默认值部署了prometheus服务器(+ kube state metrics + node exporter + alertmanager),包括图表的默认scrape_configs。问题是我希望某些指标来自特定的工作,而不是来自不同的工作。
例如,node_cpu_seconds_total 由kubernetes-service-endpoints 作业提供,但我希望它来自kubernetes-nodes 作业,即node-exporter。返回的指标值是准确的,但问题是我没有通常来自kubernetes-nodes 的标签(因为kubernetes-nodes 工作有role: node 与role: endpoint 对于role: endpoint 为kubernetes-service-endpoints。我需要这些缺失的标签高级查询 + 仪表板。
node_cpu_seconds_total{mode="idle"}的输出:
node_cpu_seconds_total{app="prometheus",chart="prometheus-7.0.2",component="node-exporter",cpu="0",heritage="Tiller",instance="10.80.20.46:9100",job="kubernetes-service-endpoints",kubernetes_name="get-prometheus-node-exporter",kubernetes_namespace="default",mode="idle",release="get-prometheus"} | 423673.44
node_cpu_seconds_total{app="prometheus",chart="prometheus-7.0.2",component="node-exporter",cpu="0",heritage="Tiller",instance="10.80.20.52:9100",job="kubernetes-service-endpoints",kubernetes_name="get-prometheus-node-exporter",kubernetes_namespace="default",mode="idle",release="get-prometheus"} | 417097.16
日志中没有错误,我确实有其他 kubernetes-nodes 指标,例如 up 和 storage_operation_errors_total 所以 node-exporter 正在被删除。
我还手动验证了 node-exporter 有这个特定的指标 node_cpu_seconds_total 和 curl <node IP>:9100/metrics | grep node_cpu 并且它有结果。
工作订单定义重要吗?如果它们具有相同的名称,一项工作会覆盖另一个工作的指标吗?我应该放弃kubernetes-service-endpoints 工作的指标吗?我是 prometheus 的新手,因此感谢您提供任何详细的帮助。
【问题讨论】:
标签: kubernetes prometheus