【问题标题】:Why do my GCE instances auto-restart every 6 hours?为什么我的 GCE 实例每 6 小时自动重启一次?
【发布时间】:2025-12-01 01:30:02
【问题描述】:

我有以下设置:

  1. n1-standard-1 实例的实例模板,可通过 HTTP(S) 访问,位于 SSD 磁盘上
  2. 命名端口为 80/443 的实例组,在 min/max=2/10 个实例的情况下启用自动缩放,目标 CPU=60%,冷却时间=60s,初始延迟=600s
  3. 每 10 秒对端口 80 进行一次组健康检查,阈值为 3 次尝试
  4. GCE HTTP(S) 负载均衡器,将上述组作为 HTTP 后端,最大 CPU=80%,运行状况检查与上面为组定义的相同

其他一切都是默认的。我从图表中看到的是,我的 2 个实例在没有明显原因的情况下定期重新启动。这些实例都每 6 小时重新启动一次,但相隔一个小时,因此它们至少不会同时停机。实例模板由在自动扩展组之外的几个月内可靠运行(即没有定期、莫名其妙的重新启动)的实例的磁盘制成。我从未在 LB 仪表板中看到我的一个实例被列为不健康,但如果我不得不猜测,我猜我的健康检查以某种方式配置错误。谢谢。

运行“gcloud 计算操作列表”会产生“compute.instances.repair.recreateInstance”类型的事件,与定期重启完全对应。我不知道为什么会发生这种情况,也没有找到任何线索搜索。

【问题讨论】:

    标签: google-compute-engine


    【解决方案1】:

    您的实例已重新启动,因为它们可能运行状况不佳。请检查 BackendSevrice.GetHealth(group) 是否为所有实例返回 HEALTHY。如果不是,这可能是您的服务器的情况,以及范围 130.211.0.0/22 (https://cloud.google.com/compute/docs/load-balancing/health-checks) 的防火墙中的一些错误配置

    【讨论】:

    • 感谢调试步骤。这个问题自行消失了,但如果它再次出现,我会试试这个。那天发生了大规模的协同 DDoS 攻击,这可能导致异常的网络延迟。
    最近更新 更多