【发布时间】:2018-05-28 09:59:15
【问题描述】:
我正在尝试在由两个节点组成的小型 dask 集群上运行 this benchmark。远程工作者只需使用dask-worker 命令部署,它就会正确显示在基准测试中client 的输出中。我也尝试过运行一些简单的函数,比如sleep,并且运行流畅。
当我运行基准测试时,它最终会在处理add 函数时卡住(卡在 2036/2047),就像最后 11 个任务从未完成一样。当我查看工作人员的日志时,会收到很多以下消息:
distributed.worker - INFO - Can't find dependencies for key add-efe22746-c80b-42f1-a02d-1217928ba4ec
distributed.worker - INFO - Dependent not found: add-37c59ee3-e3ed-4643-ae13-dd96291207bd 1 . Asking scheduler
我首先在自己的代码中遇到了这个问题,但现在我也遇到了基准测试的问题,我相信这与我的设置有关。设置调度程序和工作人员非常简单,我几乎看不出这里出了什么问题。关于如何部署工人,我有什么不明白的地方,比如在部署工人时有什么特别的地方必须非常小心吗?
编辑:在主节点上,我有调度程序和工作程序。如果我杀死这个节点上的工作人员,它似乎工作正常,尽管没有使用这个节点的核心。这是我应该如何配置集群吗?也就是master节点上不启动worker?
【问题讨论】:
标签: python dask dask-distributed