【问题标题】:Tensorflow and running distributed training with torqueTensorFlow 和运行带扭矩的分布式训练
【发布时间】:2017-10-02 05:25:35
【问题描述】:

我已经根据分布式训练的 tensorflow 指南编写了一个神经网络:https://www.tensorflow.org/deploy/distributed

如果我想在其上运行训练的集群使用扭矩来进行作业调度和分配,这如何与 tensorflow 相适应以及它如何在整个集群上分配训练?

我是在扭矩的一个节点上设置训练并让 tensorflow 从那里分配它,还是会与扭矩的功能发生冲突。如果 tensorflow 可以处理分布,甚至还需要扭矩吗?如何避免两者发生冲突?

提前致谢。

【问题讨论】:

    标签: tensorflow torque


    【解决方案1】:

    Torque 和分布式张量流负责不同的任务,彼此不直接相关。 Torque 可以将集群的资源分配给多个作业。在一项工作中,只有相应请求的资源可用。 分布式 tensorflow 用于在可用资源之间(在一个作业中)并行化 tensorflow 任务。

    通常您会使用扭矩来获取 TensorFlow 任务所需的所有资源,然后使用分布式张量流将任务分配到扭矩提供的资源上。

    如果tf.train.ClusterSpec 使用扭矩提供的资源正确初始化,则不会发生冲突。

    【讨论】:

    • 感谢BlueSun的帮助,您的回答帮助很大。然而,我遇到了一个相关的问题。当我从头节点作为一项作业运行 tensorflow 训练会话时,我收到以下错误:“ImportError:没有名为 tensorflow 的模块”但是 tensorflow 安装在集群的所有节点上。我尝试使用扭矩作业文件在 pbs 文件中使用“source activate tensorflow”在每个节点上打开一个 tensorflow shell,但这也没有帮助。我应该研究哪些可能的解决方案可能会有所帮助?
    • @DevonJarvis ImportError 可能有很多原因。您可以尝试阅读问题的答案:stackoverflow.com/questions/14295680/…
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-10-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-08-26
    • 2021-01-08
    相关资源
    最近更新 更多