【问题标题】:GKE nodes unexpectedly deleted and recreatedGKE 节点意外删除并重新创建
【发布时间】:2019-04-12 13:19:19
【问题描述】:

我在 Google Kubernetes Engine 上创建了一个集群。节点经常被删除/创建(至少每天一次)。即使创建了新实例来替换它们,并将 pod 移动到这些新节点,我还是想了解为什么这些节点会消失。

我检查了用于创建集群和节点池的设置:

  • “自动节点升级”在节点池上被禁用。
  • “可抢占节点”已禁用。
  • “自动节点修复”已启用,但我似乎没有修复节点,因为在删除节点时我在 gcloud container operations list 中看不到任何内容。

我可以看到当前节点都是在 21:00 (重新)创建的,而集群是在 08:35 创建的:

➜  ~ gcloud container clusters describe my-cluster --format=json
{
  "createTime": "2019-04-11T08:35:39+00:00",
  ...
  "nodePools": [
    {
      ...
      "management": {
        "autoRepair": true
      },
      "name": "default-pool",
    }
  ],
  "status": "RUNNING",
  ...
}

如何追踪节点被删除的原因?

【问题讨论】:

    标签: kubernetes google-kubernetes-engine


    【解决方案1】:

    我试图通过创建集群来重现您的问题,手动停止节点上的 kubelet(通过运行 systemctl stop kubelet)以触发修复并观察节点恢复。就我而言,我确实看到了自动节点修复的操作,但我也可以在 GCE 操作日志中看到 VM 已被删除并重新创建(通过 GKE 机器人帐户)。

    如果您运行gcloud compute operations list(或检查cloud console page 的操作),您应该会看到导致VM 被删除和重新创建的原因。

    【讨论】:

    • 谢谢!检查操作帮助我找到了我的节点在preemptible VM 上运行的事实。
    【解决方案2】:

    2019 年 10 月 13 日星期日刚刚发生在我身上。 来自有状​​态分区的所有数据也消失了

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-03-19
      • 2022-08-20
      • 2021-08-04
      相关资源
      最近更新 更多