【问题标题】:Kubernetes pods stuck on terminating - how to determine reason behind 'need to kill pod'?Kubernetes pod 卡在终止状态 - 如何确定“需要杀死 pod”背后的原因?
【发布时间】:2018-06-25 11:39:16
【问题描述】:

关于 SO 的类似问题有 10 个答案,如“强制删除 pod”-_-

当然,这是不可接受的,因为它会导致集群出现问题 - 太多 pod 卡在“终止”状态,而且很多时候,如果您尝试删除随机 pod,它也会卡住。它发生得相当随机。

那么如何确定,首先为什么要发出“终止”命令,其次如何找到冻结背后的罪魁祸首。

是 CNI 吗? kubelet、controllermanager 等核心组件?

日志没有显示任何有用的信息,“描述 pod”也没有。

【问题讨论】:

    标签: kubernetes


    【解决方案1】:

    如果您的 pod 显然无故终止,则可能是:

    • 节点处于压力之下(内存、cpu)
    • 活性条件未得到遵守

    由于这些原因,调度程序会杀死一些 pod。

    如何确定确切原因? 如果您发现 'logs' 和 'describe' 命令无用,它可能是一个有用的监控系统(例如 influxdb+grafana:https://github.com/kubernetes/heapster/tree/master/deploy/kube-config/influxdb)。

    【讨论】:

    • 感谢您的回答,但这既不是计算压力也不是活性/准备失败。
    • 您是否有某种持续集成过程来杀死这些 pod?例如 Jenkins 管理 pod?
    猜你喜欢
    • 2019-09-19
    • 2019-01-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-24
    • 1970-01-01
    相关资源
    最近更新 更多