为什么我的 GCE 实例每 6 小时自动重启一次？答案

【问题标题】：Why do my GCE instances auto-restart every 6 hours?为什么我的 GCE 实例每 6 小时自动重启一次？
【发布时间】：2025-12-01 01:30:02
【问题描述】：

我有以下设置：

n1-standard-1 实例的实例模板，可通过 HTTP(S) 访问，位于 SSD 磁盘上
命名端口为 80/443 的实例组，在 min/max=2/10 个实例的情况下启用自动缩放，目标 CPU=60%，冷却时间=60s，初始延迟=600s
每 10 秒对端口 80 进行一次组健康检查，阈值为 3 次尝试
GCE HTTP(S) 负载均衡器，将上述组作为 HTTP 后端，最大 CPU=80%，运行状况检查与上面为组定义的相同

其他一切都是默认的。我从图表中看到的是，我的 2 个实例在没有明显原因的情况下定期重新启动。这些实例都每 6 小时重新启动一次，但相隔一个小时，因此它们至少不会同时停机。实例模板由在自动扩展组之外的几个月内可靠运行（即没有定期、莫名其妙的重新启动）的实例的磁盘制成。我从未在 LB 仪表板中看到我的一个实例被列为不健康，但如果我不得不猜测，我猜我的健康检查以某种方式配置错误。谢谢。

运行“gcloud 计算操作列表”会产生“compute.instances.repair.recreateInstance”类型的事件，与定期重启完全对应。我不知道为什么会发生这种情况，也没有找到任何线索搜索。

【问题讨论】：

标签： google-compute-engine

【解决方案1】：

您的实例已重新启动，因为它们可能运行状况不佳。请检查 BackendSevrice.GetHealth(group) 是否为所有实例返回 HEALTHY。如果不是，这可能是您的服务器的情况，以及范围 130.211.0.0/22 (https://cloud.google.com/compute/docs/load-balancing/health-checks) 的防火墙中的一些错误配置

【讨论】：

感谢调试步骤。这个问题自行消失了，但如果它再次出现，我会试试这个。那天发生了大规模的协同 DDoS 攻击，这可能导致异常的网络延迟。