【发布时间】:2020-07-10 20:35:24
【问题描述】:
GKE 集群配置了集群/节点自动配置。
我创建了一个默认节点池,可以在其上运行系统特定的 pod。每当请求带有 GPU 的 Pod 时,GKE 会自动创建新的启用 GPU 的节点池,这很好。
但是,每当我删除此类 pod 时,GKE 不会将新创建的节点池缩减为零实例。相反,一个实例继续运行。如果没有请求 GPU,节点池应该达到最小大小,即零。
注意:
- 对于 GPU 驱动程序,已在“kube-system”命名空间下创建了一个 Daemonset,此 Daemonsets 的 Pod 在每个启用 GPU 的节点上运行。
我编辑了这个 Daemonset 并添加了标签 '"cluster-autoscaler.kubernetes.io/safe-to-evict": "true" ' 到 pod。
有人可以帮助如何将新创建的节点池缩减到零节点吗?
更新:
在新节点上运行的 Pod 是:
fluentd-gcp(来自 DaemonSet)
kube 代理
nvidia-gpu-device-plugin(来自 DaemonSet)
这些豆荚不应该被驱逐吗?
【问题讨论】:
-
剩余节点上正在运行什么?查看此问题并回答:stackoverflow.com/questions/59217515/…
-
@JohnHanley 请检查更新。我浏览了提供的链接,但是运行中的 pod 应该会自动从该节点中被逐出,对吗?如果不是,驱逐他们的好做法是什么?
标签: kubernetes google-cloud-platform google-kubernetes-engine autoscaling