【发布时间】:2020-05-25 15:28:05
【问题描述】:
启动 TensorFlow 服务器 (tf.distribute.Server) 时,您必须传递一个 ClusterSpec,它指定集群中的所有任务/工作人员。
在您启动服务器后,是否可以向其添加更多工作人员?怎么样?
如果没有,为什么不呢?
(这个和问题有关,why does the server need to know at all about all the workers in advance? 虽然不是同一个问题。)
(这也与问题有关,what operators are there for remote communication? 目前我只知道这个(官方)distributed TensorFlow 功能,通过带有ClusterSpec 的 TF 服务器。
其他非官方的解决方案是例如TensorpackTF ZMQ ops,在这里你可以以任何你想要的方式进行通信(通过 ZeroMQ),而且你也不需要事先/提前了解整个集群。)
【问题讨论】:
标签: python tensorflow