【问题标题】:ECS task not starting - STOPPED (CannotPullContainerError: “Error response from daemon request canceled while waiting for connection”ECS 任务未启动 - 已停止(CannotPullContainerError:“来自守护程序请求的错误响应在等待连接时取消”
【发布时间】:2020-02-29 09:08:32
【问题描述】:

我正在使用 Fargate 在 ECS 中启动一项任务,在 PENDING 一段时间后它以 STOPPED 结束并出现以下错误:

STOPPED (CannotPullContainerError: "Error response from daem

当我展开我看到的细节时

STOPPED (CannotPullContainerError: "Error response from daemon: Get https://id.dkr.ecr.ap-southeast-2.amazonaws.com/v2/: net/http: request canceled while waiting for connection"

原因

(Client.Timeout exceeded while awaiting headers)

所以任务由于某种原因无法访问容器,但我不确定缺少什么权限以及来自什么资源。我已经阅读了一些,我发现唯一真正的建议是将 AssignPublicIp: ENABLED 添加到 AwsvpcConfiguration 但这没有帮助。

【问题讨论】:

    标签: amazon-web-services amazon-ecs aws-fargate


    【解决方案1】:

    所以看起来错误消息在某些时候发生了变化:https://aws.amazon.com/premiumsupport/knowledge-center/ecs-pull-container-api-error-ecr/ 有一些步骤可以解决,但提到错误 CannotPullContainerError: API error 可能与 CannotPullContainerError: "Error response from daem 同义?

    至少对我来说,创建 AWS::EC2::VPCEndpoint 似乎让我更进一步。

    【讨论】:

      【解决方案2】:

      我通过在 ECS 上为使用我的服务创建的每个 Fargate 实例启用公共 IP 来修复此错误。

      服务配置:

      {
        ...
        "networkConfiguration": {
          "awsvpcConfiguration": {
            "subnets": [
              "my-subnets",
            ],
            "securityGroups": [
              "my-security-group"
            ],
            "assignPublicIp": "ENABLED" // <-- ENABLED HERE
          }
        },
      }
      

      【讨论】:

      • 我同意这应该可行,但由于安全策略,我无法将公共 IP 地址分配给 Fargate 实例。
      • 这个解决方法对我有用。你能解释一下为什么吗?仅供参考 - 我正在运行 Fargate 实例。
      【解决方案3】:

      我使用 Fargate 找到了适合我的解决方案。他们的文件指出:

      1. 如果您正在使用 Amazon Elastic Compute Cloud (Amazon EC2) 启动类型运行任务并且您的容器实例位于私有子网中,或者如果您正在使用 AWS Fargate 启动类型在私有子网中运行任务,确认您的子网在路由表中有到 NAT 网关的路由。

      这只是意味着,

      1. 您必须找到您使用的 VPC。
      2. 然后在您拥有 VPC 的表中,您将找到它的主路由表。
      3. 打开路由表,然后确保您有链接到 Internet 网关的条目。

      它看起来像igw-006b1917dc348d10d。完成后,您的 vpc 将可以访问互联网,并能够获取您的 ECR 图像。

      来源:AWS docs

      【讨论】:

        【解决方案4】:

        Alan Sereb 的解决方案对我有用。

        似乎在AWS launched Fargate platform version 1.4.0 之后,使用配置了 ECS 服务的 VPC 完成了对远程映像注册表(如我的情况下是 Gitlab 注册表)的访问。

        所以现在 Fargate 容器网络接口(以及 ECS 使用的 VPC)需要有 Internet 访问权限,因此必须在 VPC 路由表中设置 Internet 网关。

        【讨论】:

          【解决方案5】:

          这是一个错误,当您无法拉取图像时出现。它可能有很多原因,例如 VPC 内部的权限和 Internet 访问。

          如果您的 VPC 是仅限公共子网,那么您需要添加 Internet 网关以访问 Internet。 如果您的 VPC 仅是私有的,那么您需要一个 NAT 网关,以便该任务可以访问 docker 映像以进行拉取。

          【讨论】:

            【解决方案6】:

            原因是运行任务定义的服务没有连接到互联网。

            我有它,因为我的 vpc 在公共子网中,并且该服务没有公共 IP 地址。

            of this answer 为基础,如果您使用python cdk 创建服务,您可以在创建服务时指定服务中的任务是否应使用公共IP 地址以及子网和安全组。

            基本上,你应该有这样的东西..:

            service = ecs.FargateService(self,
                                         "service-name",
                                         cluster=cluster,
                                         task_definition=task_definition,
                                         service_name="service-name", 
                                         assign_public_ip=True, # this is important
                                         security_groups=[list of security groups , also important],
                                         vpc_subnets=[list of subnets]
                                         )
            

            有关 FragateService 的更多信息,请参阅this

            如果您使用的是 cli,您可以使用以下命令更新您的服务:

            aws ecs update-service --service service-name --cluster the_Cluster  --network-configuration "{
                \"awsvpcConfiguration\": {
                  \"subnets\": [\"subnet-***\",\"subnet-****\",\"subnet-*****\"],
                  \"securityGroups\": [\"sg-******\"],
                  \"assignPublicIp\": \"ENABLED\"
                }
            

            有关如何更新服务检查的更多信息this

            【讨论】:

              【解决方案7】:

              使用 Fargate 拉取映像 ECS 使用必须具有策略 AmazonECSTaskExecutionRolePolicy 的任务执行角色(例如:ecsTaskExecutionRole)。

              当从 ECR 外部的私有存储库中提取图像时,此任务执行角色将需要在远程容器注册表中进行身份验证,因此正如 AWS 文档所述 https://docs.aws.amazon.com/AmazonECS/latest/developerguide/private-auth.html,它需要一个带有凭证的密钥,并且对于任务执行角色来说访问秘密,也是一个内联策略secretsmanager:GetSecretValue

              假设映像可在任何容器注册表(DockerHub、ECR、GitLab 等)中公开访问,则可能涉及其他内容。

              1. 确保您的 VPC 已将 DNS resolution 设置为 Enable,否则它将无法访问外部 URL
              2. 确保运行 fargate 服务的子网可以访问互联网。如果它们是公共的,子网将有一个路由表将流量重定向到任何 IP (0.0.0.0/0) 到 Internet 网关。否则,他们将不得不使用 NAT 网关作为跳转服务来访问互联网。
              3. 确保您在子网级别的 NACL 和正在使用的安全组允许传出和传入流量。

              附带说明一下,VPC 下有一项称为可达性分析器的服务,可让您检查连接路径并检测 NACL 或路由表中的任何错误。例如,您可以验证任何子网中的网络接口是否可以访问 Internet 网关。它用作跟踪路由。

              【讨论】:

                【解决方案8】:

                我也遇到了同样的问题。经过调查,我看到何时禁用 Auto-assign public IP 我们必须通过与 NAT 网关关联的私有子网将您的服务连接到公共互联网。

                这里一步一步来:

                1.创建 2 - 3 个私有子网

                2。创建新的路由表并与这些子网关联

                3.创建 NAT 网关

                -- 分配您的私有子网之一

                -- 使用上述子网创建服务

                【讨论】:

                  猜你喜欢
                  • 2021-02-18
                  • 2020-02-29
                  • 1970-01-01
                  • 2010-11-10
                  • 1970-01-01
                  • 2017-05-16
                  • 1970-01-01
                  • 2021-11-06
                  • 2016-05-24
                  相关资源
                  最近更新 更多