使用估计器进行多 gpu 训练

【问题标题】：Multi gpu training with estimators使用估计器进行多 gpu 训练
【发布时间】：2019-06-14 10:02:13
【问题描述】：

在此链接https://www.tensorflow.org/beta/tutorials/distribute/multi_worker_with_estimator 他们说，当使用 Estimator 进行多工人训练时，有必要按工人数量对数据集进行分片以确保模型收敛。所谓多工人，是指一个系统中的多个 gpu 或分布式训练？我在一个系统中有 2 个 gpus，我必须对数据集进行分片吗？

【问题讨论】：

标签： tensorflow tensorflow-datasets tensorflow-estimator

【解决方案1】：

不，你不知道 - 多个工作人员指的是一组机器。

对于具有多个 GPU 的单台机器，您不需要对其进行分片。

本教程解释了多 GPU 所需的 MirroredStrategy：https://www.tensorflow.org/beta/tutorials/distribute/keras

对于不同设置的不同分布式策略，您可以参考这里了解更多信息：https://www.tensorflow.org/beta/guide/distribute_strategy#types_of_strategies

【讨论】：