【问题标题】:EKS: Unable to pull logs from podsEKS:无法从 pod 中提取日志
【发布时间】:2019-04-01 17:02:14
【问题描述】:

kubectl logs 命令间歇性地失败,并出现“getsockopt: no route to host”错误。

# kubectl logs -f mypod-5c46d5c75d-2Cbtj

来自服务器的错误:获取 https://X.X.X.X:10250/containerLogs/default/mypod-5c46d5c75d-2Cbtj/metaservichart?follow=true: dial tcp X.X.X.X:10250: getsockopt: no route to host

如果我运行相同的命令 5-6 次,它就可以工作。我不确定为什么会这样。任何帮助将不胜感激。

【问题讨论】:

  • 你在哪里运行kubectl logs?您的 pod 是在运行还是在停止/启动?你的节点健康吗?没有更具体的调试信息很难说。
  • 我正在尝试从我的本地系统进行连接。节点和 pod 是健康的。他们没有问题。看起来 EKS 主节点存在一些问题。但是它们是由 AWS 管理的,所以我不知道出了什么问题。
  • 打开支持票...
  • 我已经这样做了,现在已经 6 天了。他们无法追踪问题:(
  • X.X.X.X是节点IP吗?

标签: kubernetes kubectl amazon-eks


【解决方案1】:

我对私有 ip 172.17.X.X 有完全相同的问题

Error from server: Get https://172.17.X.X:10250/containerLogs/******: dial tcp 
172.17.X.X:10250: getsockopt: no route to host

我正在使用 EKS 优化的 AMI v24。

这里讨论了类似的问题。 https://github.com/aws/amazon-vpc-cni-k8s/issues/137。我想知道以 172.17.X.X 开头的私有 ip 是问题,因为它与 Docker 的默认内部 cidr 冲突,但我在使用 kops 时没有这个问题。

【讨论】:

  • 是的,即使我从来没有遇到过 kops 的这个问题。我已经向 AWS 技术支持提出了这个问题,但没有收到他们的任何消息,现在已经 15 天了 :( GKE 好多了,我计划将我的服务从 EKS 转移到 GKE。
【解决方案2】:

仅供参考,我刚刚尝试在 EKS 上使用另一个 VPC 172.18.X.X,所有 kubectl 命令都可以正常工作。

我还注意到,当我使用 172.17.X.X VPC 时,kops 将 172.18.X.X 用于 docker 的内部 cidr。所以我推测 kops 会更改默认 docker 的 cidr 以不与集群 IP 冲突。我希望我们可以在创建 EKS 工作节点时配置 docker 的 cidr,可能通过 CloudFormation yaml 模板或其他方式。

【讨论】:

    【解决方案3】:

    我有机会亲自与 AWS EKS 工程师交谈。官方的回答是,由于 cidr 与 Docker 的 IP 重叠,当前的 EKS 不支持 172.17.0.0/16。似乎他们有内部票据来解决这个问题,但没有 ETA。

    【讨论】:

      【解决方案4】:

      根据 AMI,我收到错误“getsockopt: no route to host”。

      我使用“kubectl logs my-pod-id”来访问 pod 的日志。

      • 我在 AWS 中运行 EKS V1.10(是的,我需要尽快升级到 V1.11)。
      • 我正在为我的 vpc 和子网使用 IP 范围 10.0.0.0。我有 2 公共子网和 2 个私有子网。

      它可以工作(也不能工作),具有完全相同的路由、安全组、vpc 等。只是 AMI 更改。

      作品: ami-73a6e20b(我在 2018 年 10 月首次设置集群时使用)

      不起作用: ami-0e7ee8863c8536cce(从今天开始,我们推荐使用 Amazon EKS 优化的 AMI,用于 us-west-2 Oregon - https://docs.aws.amazon.com/eks/latest/userguide/eks-optimized-ami.html

      我的意思是,这可能不是您的路由/安全组设置。

      【讨论】:

      • 我遇到了同样的问题。集群是使用较旧版本的 CloudFormation 模板设置的,早在 2018 年 8 月。升级 CloudFormation 模板和 AMI 后,除了日志之外,几乎一切正常。
      猜你喜欢
      • 1970-01-01
      • 2022-01-14
      • 2021-06-13
      • 2019-05-03
      • 1970-01-01
      • 1970-01-01
      • 2022-12-12
      • 1970-01-01
      • 2021-01-28
      相关资源
      最近更新 更多