【发布时间】:2017-03-17 17:29:33
【问题描述】:
我正在尝试在 celebA 上训练 DCGAN。训练过程似乎进展得很慢,我想弄清楚是什么导致了瓶颈。当我使用扩展层 STANDARD_1、BASIC_GPU 或仅在我 6 年使用的 4 核 CPU 笔记本电脑上本地运行时,训练一个 epoch 所需的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要 25 秒,尽管我注意到每隔一段时间训练步骤需要几分钟。
使用 BASIC_GPU 时,cpu 利用率低于 0.1。我使用 BASIC 层进行了一个实验,master 悬停在 0.4 处,每步大约需要 40 秒。使用 STANDARD_1 时,我得到以下 cpu 利用率:
- 主人:.28
- 工人:.21
- 参数服务器(ps):.48
在使用单个 worker 的 BASIC 上运行时,CPU 利用率不应该接近 100% 吗?
按照这个速度,将图像缩小到 64x64 需要 22 小时来训练 celebA 的一个 epoch。从 repo 中查看其他人的训练日志,看起来这明显高于使用 GPU 进行训练的其他人。
【问题讨论】:
-
您能否提供指向您提到的其他培训日志的指针?
-
这个人似乎平均每批不到 2 秒:github.com/carpedm20/DCGAN-tensorflow/issues/34
标签: google-cloud-platform google-cloud-ml google-cloud-ml-engine