【发布时间】:2016-05-24 23:28:32
【问题描述】:
我正在运行类似于Inception sample code 的分布式张量流训练,但使用的是这个设备设置器:
with tf.device(tf.train.replica_device_setter(ps_tasks=1,
worker_device="/job:worker/task:%d" % FLAGS.task_id,
cluster=cluster_spec)):
这台机器有 4 个 GPU 和 64 GB RAM。 ps 作业仅在 CPU 上运行,并且有两个 worker 作业在 2 个单独的 GPU 上运行。两个工作者作业的 res 内存占用逐渐增加,直到大约 3000 步,首席工作者被 OOM 杀死(两个工作者在崩溃前都占用了大约 49% 的 RAM)。我也试过一个工人,那个工人也被杀了。 ps 作业占用的空间要小得多。
我尝试禁用摘要操作、模型保护程序、变量平均程序、减少阅读器线程,但无济于事。
【问题讨论】: