【发布时间】:2020-10-05 23:15:54
【问题描述】:
我知道 TensorFlow 提供分布式训练 API,可以在多个设备上进行训练,例如多个 GPU、CPU、TPU 或多台计算机(工作人员) 关注此文档:https://www.tensorflow.org/tutorials/distribute/multi_worker_with_keras
但我有一个问题,是否有任何可能的方法可以使用数据并行性拆分火车以跨多台机器(包括移动设备和计算机设备)进行训练?
如果您有任何教程/说明,我将不胜感激。
【问题讨论】:
-
所以您想使用所有设备,无论是 PDA、手机还是系统来训练您的模型?
-
@YashKumarAtri 是的。我想在许多不同的设备上拆分训练以减少训练阶段的时间。
-
没用。小型设备没有那么强大的硬件,整个想法是在更大的机器上训练模型,并使用模型蒸馏在移动设备上进行推理。但是您可以使用同一网络上的计算机进行培训。
标签: tensorflow machine-learning distributed-training