【发布时间】:2017-09-01 02:39:09
【问题描述】:
这个article 建议分布式训练有三种选择
- 具有同步更新的数据并行训练。
- 具有异步更新的数据并行训练。
- 模型并行训练。
本教程接着建议以下代码执行 在 Cloud ML Engine 上使用异步更新进行数据并行训练,其行为类似于“如果您在 10 个工作节点之间分配 10,000 个批次,则每个节点适用于大约 1,000 个批次。”
但是,不清楚代码的哪一部分实际指定这是使用具有异步更新的数据并行训练。如果您使用自定义 tf.estimator 在分布式训练模式下运行 ML 引擎,这仅仅是默认设置吗?
【问题讨论】:
标签: tensorflow google-cloud-platform google-cloud-ml google-cloud-ml-engine