【发布时间】:2017-04-27 02:02:57
【问题描述】:
现在以tensorflow-char-rnn 为基础,我开始了一个 word-rnn 项目来预测下一个单词。 但是我发现我的火车数据集中速度太慢了。这是我的培训详情:
- 训练数据大小:10 亿字
- 词汇量:75万
- RNN 模型:lstm
- RNN 层:2
- 单元格大小:200
- 序列长度:20
- Batch size:40(batch size太大会导致OOM异常)
机器详情:
- Amazon p2 实例
- 1 核 K80 GPU
- 16G 显存
- 4核CPU
- 60G内存
在我的测试中,训练数据1个epoch的时间需要17天! 实在是太慢了,然后我把seq2seq.rnn_decoder改成tf.nn.dynamic_rnn,但是时间还是17天。
我想找到太慢的原因是我的代码造成的还是一直很慢? 因为我听说一些传言说 Tensorflow rnn 比其他 DL Framework 慢。
这是我的型号代码:
class SeqModel():
def __init__(self, config, infer=False):
self.args = config
if infer:
config.batch_size = 1
config.seq_length = 1
if config.model == 'rnn':
cell_fn = rnn_cell.BasicRNNCell
elif config.model == 'gru':
cell_fn = rnn_cell.GRUCell
elif config.model == 'lstm':
cell_fn = rnn_cell.BasicLSTMCell
else:
raise Exception("model type not supported: {}".format(config.model))
cell = cell_fn(config.hidden_size)
self.cell = cell = rnn_cell.MultiRNNCell([cell] * config.num_layers)
self.input_data = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
self.targets = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
self.initial_state = cell.zero_state(config.batch_size, tf.float32)
with tf.variable_scope('rnnlm'):
softmax_w = tf.get_variable("softmax_w", [config.hidden_size, config.vocab_size])
softmax_b = tf.get_variable("softmax_b", [config.vocab_size])
embedding = tf.get_variable("embedding", [config.vocab_size, config.hidden_size])
inputs = tf.nn.embedding_lookup(embedding, self.input_data)
outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=self.initial_state)
# [seq_size * batch_size, hidden_size]
output = tf.reshape(tf.concat(1, outputs), [-1, config.hidden_size])
self.logits = tf.matmul(output, softmax_w) + softmax_b
self.probs = tf.nn.softmax(self.logits)
self.final_state = last_state
loss = seq2seq.sequence_loss_by_example([self.logits],
[tf.reshape(self.targets, [-1])],
[tf.ones([config.batch_size * config.seq_length])],
config.vocab_size)
self.cost = tf.reduce_sum(loss) / config.batch_size / config.seq_length
self.lr = tf.Variable(0.0, trainable=False)
tvars = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tvars),
config.grad_clip)
optimizer = tf.train.AdamOptimizer(self.lr)
self.train_op = optimizer.apply_gradients(zip(grads, tvars))
Here is the GPU load during the training
非常感谢。
【问题讨论】:
-
64天好像有点多,可以给代码吗?
-
您在使用 Google Billion Words 数据集吗?
-
@sygi 型号代码如上。我将词汇量减少到 75 万(之前为 1.5m),并将批量大小更改为 40(之前为 15),seq 长度为 20(之前为 25),因此我可以将词嵌入移动到 GPU(之前为 OOM)。但是每个 epoch 仍然需要 17 天。
-
@helloChris 不,数据集来自我公司。
-
您可能想看看这里:static.googleusercontent.com/media/research.google.com/en//pubs/… 他们列出的训练时间可能会帮助您了解 10 亿个单词需要多长时间。他们确实有一半的词汇量。可能只是您的数据量很大。在您将模型复制到另一个框架中之前,我不会责怪 TensorFlow,而且它需要的时间更少。
标签: tensorflow lstm