【发布时间】:2017-10-03 00:15:15
【问题描述】:
有没有办法使用 Stackdriver 监控 GKE 集群中运行的 pod 状态和重启次数?
虽然我可以在 Stackdriver 中查看所有 pod 的 CPU、内存和磁盘使用指标,但似乎无法获取有关崩溃 pod 或副本集中的 pod 因崩溃而重新启动的指标。
我正在使用 Kubernetes 副本集来管理 Pod,因此它们在崩溃时会重新生成并使用新名称创建。据我所知,Stackdriver 中的指标按 pod-name 显示(这在 pod 的生命周期中是唯一的),这听起来并不合理。
在 pod 故障时发出警报听起来是一件很自然的事情,听起来很难相信目前不支持此功能。我从 Stackdriver for Google Container Engine 获得的监控和警报功能目前看来相当无用,因为它们都绑定到生命周期可能非常短的 pod。
那么,如果这不能开箱即用,是否有已知的解决方法或最佳实践来监控连续崩溃的 pod?
【问题讨论】:
-
我也在研究一个类似的解决方案.. 目前我没有找到很多关于你的要求和其他可能有趣的类似指标.. 如果我有一些更新,我会告诉你的!
-
同意这是 GKE / Stackdriver 堆栈中的一个明显漏洞。非常惊讶的是,我找不到一种方法来设置关于 pod 何时重新启动或被驱逐,或者何时添加部署等的警报。可能最终会编写我自己的基于 python 的守护程序来执行此操作。 (使用这个:github.com/kubernetes-client/python)
标签: kubernetes monitoring google-kubernetes-engine stackdriver google-cloud-stackdriver