【发布时间】:2016-11-12 20:21:11
【问题描述】:
我将 tensorflow 与 Titan-X GPU 一起使用,我注意到,当我运行 CIFAR10 示例时,Volatile GPU-utilization 几乎恒定在 30% 左右,而当我训练自己的模型时,Volatile GPU-utilization远非稳定,它几乎总是 0% 并在 80/90% 处达到峰值,然后一遍又一遍地回到 0%。
我认为这种行为是由于我将数据提供给网络的方式(我在每一步之后都获取数据,这需要一些时间)。但是在实现了一个队列来提供数据并避免步骤之间的这种延迟之后,问题仍然存在(请参阅下面的排队系统)。
有什么想法吗?
batch = 128 # size of the batch
x = tf.placeholder("float32", [None, n_steps, n_input])
y = tf.placeholder("float32", [None, n_classes])
# with a capacity of 100 batches, the bottleneck should not be the data feeding
queue = tf.RandomShuffleQueue(capacity=100*batch,
min_after_dequeue=80*batch,
dtypes=[tf.float32, tf.float32],
shapes=[[n_steps, n_input], [n_classes]])
enqueue_op = queue.enqueue_many([x, y])
X_batch, Y_batch = queue.dequeue_many(batch)
sess = tf.Session()
def load_and_enqueue(data):
while True:
X, Y = data.get_next_batch(batch)
sess.run(enqueue_op, feed_dict={x: X, y: Y})
train_thread = threading.Thread(target=load_and_enqueue, args=(data))
train_thread.daemon = True
train_thread.start()
for _ in xrange(max_iter):
sess.run(train_op)
【问题讨论】:
-
data.get_next_batch相对于其他操作多长时间?它似乎是唯一在 CPU 上运行的,它可能会减慢管道。 -
对于大小为 128 的批次,
get_next_batch的运行时间大约是sess.run(train_op)的 14 倍。但是,在开始训练之前,我向队列提供了 100 * 个批处理示例,所以至少在开始时我应该有一些良好的 GPU 利用率,不是吗? -
如果training比feeding快一个数量级,很有可能dequeuing操作大部分时间都在等待,这意味着GPU-run部分(
train_op)等待CPU -运行线程(用于load_and_enqueue)。不过,我还不清楚与min_after_dequeue的相互作用是什么。不如全部在 CPU 上运行(即无线程),看看使用是否更流畅? -
所以这个问题现在似乎明白了。一个解决方案可能是对数据进行预处理,以便喂食与训练一样快或更快。请注意,复杂的模型可能会慢很多...
-
是的,谢谢。我删除了我的 cmets,并将发布我的问题的正确答案。再次感谢您帮助我解决问题。
标签: neural-network gpu tensorflow nvidia deep-learning