【问题标题】:Problem running Dask on AWS Sagemaker and AWS Fargate在 AWS Sagemaker 和 AWS Fargate 上运行 Dask 时出现问题
【发布时间】:2019-07-02 22:55:34
【问题描述】:

我正在尝试在 AWS 上设置一个集群,以使用 dask 运行分布式 sklearn 模型训练。开始时,我尝试按照希望调整的本教程进行操作:https://towardsdatascience.com/serverless-distributed-data-pre-processing-using-dask-amazon-ecs-and-python-part-1-a6108c728cc4

我已设法将 docker 容器推送到 AWS ECR,然后启动 CloudFormation 模板以在 AWS Fargate 上构建集群。本教程的下一步是启动 AWS Sagemaker Notebook。我已经尝试过了,但有些东西不起作用,因为当我运行命令时出现错误(见图)。 问题可能是什么?它可能与 VPC/子网有关吗?是否与 AWS Sagemaker 互联网访问有关?(我已尝试启用和禁用此功能)。

预期结果:即将更新,扩大 Fargate 集群以使其正常工作。

实际结果:以上都不是。

【问题讨论】:

    标签: dask amazon-sagemaker dask-distributed aws-fargate


    【解决方案1】:

    在我的例子中,当运行相同的教程时,DaskSchedulerService 需要很长时间才能完成。创建已在 CloudFormation 中启动但从未完成。 5-6 小时后,我得到以下结果:

    DaskSchedulerService CREATE_FAILED Dask-Scheduler 不稳定。

    worker 没有运行,因此无法连接到客户端。

    【讨论】:

    猜你喜欢
    • 2023-02-02
    • 1970-01-01
    • 2020-04-06
    • 1970-01-01
    • 1970-01-01
    • 2021-08-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多