【问题标题】:Dask cluster is not starting upDask 集群未启动
【发布时间】:2021-01-28 18:14:37
【问题描述】:

我正在尝试启动 dask 集群,但它显示以下错误:

Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s:
Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s: 
connect() didn't finish in time

【问题讨论】:

  • 看起来像网络错误。调试起来很困难,但我会检查调度程序/工作人员是否在同一个网络上,端口是否打开等。

标签: cluster-analysis dask dask-distributed dask-kubernetes


【解决方案1】:

我在通过 dask-cloudprovider 构建临时 ECS/Fargate 集群时遇到了类似的情况。答案最终落入了网络架构的桶中。以下是一些建议:

  1. 确保您为已设置的任何 IAM 角色设置了网络防火墙规则。这是 AWS 中的“安全组”,但对其他平台不利。
  2. 确保您的网络路由表已为您的 Internet 网关正确设置,并允许您的节点进出……如果未在私有子网中正确设置,这尤其不安全。如果您尝试在私有子网中运行,那么一定要尝试确定 NAT 网关是否设置正确,以及您可能拥有的任何负载均衡器..
  3. 我看到您的系统正在查找端口 2323...据我所知,dask 通常默认查找 8787,如果您不确定,我会调查一下。

这个问题很难确定,所以我建议进行大量的跟踪和错误。检查每个工作人员和调度程序的日志,并尝试获取其他可能导致问题的提示。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-01-11
    • 2016-02-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-12-28
    相关资源
    最近更新 更多