【问题标题】:How to speedup rnn training speed of tensorflow?如何加快tensorflow的rnn训练速度?
【发布时间】:2017-04-27 02:02:57
【问题描述】:

现在以tensorflow-char-rnn 为基础,我开始了一个 word-rnn 项目来预测下一个单词。 但是我发现我的火车数据集中速度太慢了。这是我的培训详情:

  • 训练数据大小:10 亿字
  • 词汇量:75万
  • RNN 模型:lstm
  • RNN 层:2
  • 单元格大小:200
  • 序列长度:20
  • Batch size:40(batch size太大会导致OOM异常)

机器详情:

  • Amazon p2 实例
  • 1 核 K80 GPU
  • 16G 显存
  • 4核CPU
  • 60G内存

在我的测试中,训练数据1个epoch的时间需要17天! 实在是太慢了,然后我把seq2seq.rnn_decoder改成tf.nn.dynamic_rnn,但是时间还是17天。

我想找到太慢的原因是我的代码造成的还是一直很慢? 因为我听说一些传言说 Tensorflow rnn 比其他 DL Framework 慢。

这是我的型号代码:

class SeqModel():
def __init__(self, config, infer=False):
    self.args = config
    if infer:
        config.batch_size = 1
        config.seq_length = 1

    if config.model == 'rnn':
        cell_fn = rnn_cell.BasicRNNCell
    elif config.model == 'gru':
        cell_fn = rnn_cell.GRUCell
    elif config.model == 'lstm':
        cell_fn = rnn_cell.BasicLSTMCell
    else:
        raise Exception("model type not supported: {}".format(config.model))

    cell = cell_fn(config.hidden_size)

    self.cell = cell = rnn_cell.MultiRNNCell([cell] * config.num_layers)

    self.input_data = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
    self.targets = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
    self.initial_state = cell.zero_state(config.batch_size, tf.float32)

    with tf.variable_scope('rnnlm'):
        softmax_w = tf.get_variable("softmax_w", [config.hidden_size, config.vocab_size])
        softmax_b = tf.get_variable("softmax_b", [config.vocab_size])

        embedding = tf.get_variable("embedding", [config.vocab_size, config.hidden_size])
        inputs = tf.nn.embedding_lookup(embedding, self.input_data)


    outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=self.initial_state)

    # [seq_size * batch_size, hidden_size]
    output = tf.reshape(tf.concat(1, outputs), [-1, config.hidden_size])

    self.logits = tf.matmul(output, softmax_w) + softmax_b
    self.probs = tf.nn.softmax(self.logits)

    self.final_state = last_state


    loss = seq2seq.sequence_loss_by_example([self.logits],
                                            [tf.reshape(self.targets, [-1])],
                                            [tf.ones([config.batch_size * config.seq_length])],
                                            config.vocab_size)
    self.cost = tf.reduce_sum(loss) / config.batch_size / config.seq_length

    self.lr = tf.Variable(0.0, trainable=False)
    tvars = tf.trainable_variables()
    grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tvars),
                                      config.grad_clip)
    optimizer = tf.train.AdamOptimizer(self.lr)
    self.train_op = optimizer.apply_gradients(zip(grads, tvars))

Here is the GPU load during the training

非常感谢。

【问题讨论】:

  • 64天好像有点多,可以给代码吗?
  • 您在使用 Google Billion Words 数据集吗?
  • @sygi 型号代码如上。我将词汇量减少到 75 万(之前为 1.5m),并将批量大小更改为 40(之前为 15),seq 长度为 20(之前为 25),因此我可以将词嵌入移动到 GPU(之前为 OOM)。但是每个 epoch 仍然需要 17 天。
  • @helloChris 不,数据集来自我公司。
  • 您可能想看看这里:static.googleusercontent.com/media/research.google.com/en//pubs/… 他们列出的训练时间可能会帮助您了解 10 亿个单词需要多长时间。他们确实有一半的词汇量。可能只是您的数据量很大。在您将模型复制到另一个框架中之前,我不会责怪 TensorFlow,而且它需要的时间更少。

标签: tensorflow lstm


【解决方案1】:

正如您提到的,batch_size 对调整非常重要,它可以带来令人印象深刻的加速,但请检查您的困惑是否保持相关性。

监控您的 GPU 活动能否为您提供有关潜在 I/O 瓶颈的提示。

最重要的是,使用 sampled softmax 代替常规 softmax 更快。这将要求您使用[config.vocab_size, config.hidden_size] 权重矩阵而不是[config.hidden_size, config.vocab_size]。这绝对是我的观点。

希望这会有所帮助。

pltrdy

【讨论】:

  • 感谢您的回复。稍后我会尝试并给出改进的结果。另一个问题:如果我使用预训练的词嵌入并将其标记为 trainable=False,我能得到更快的结果吗?
  • Sampled softmax 是令人兴奋的,它比以前加速了 6 倍。现在训练 1 个 epoch 需要 2.6 天。 (nums_sampled = 512) 但是对我来说还是太慢了,我发现我的GPU在训练过程中没有用满,这里是快照:[i.stack.imgur.com/2BR1S.png](GPU监视器)
  • 1) 关于嵌入:我不确定,但听起来很有趣,试试吧! 2) 当 GPU 不是 100% 时,我通常会增加我的 batch_size,因为在我看来,这是由于 RAM 和 GPU 之间的高 I/O 导致 GPU 无法 100% 工作。增加batch_size,你可能想同时看看你的CPU使用率。它可以给你提示(也许只有 CPU 的操作是“阻塞的”。)
  • 现在我已经将词汇量减少到 400 万,并将批量大小增加到 200,现在 1 个 epoch 只需要 0.45 天!增加批量大小会产生副作用吗?因为我发现成本比以前大了。那么训练 rnn 的合适批量大小范围是多少?
  • 我也经历过同样的“副作用”。我没有仔细研究它,但在我的情况下,增加批量是值得的,因为速度的提高和对 ppl 的影响是可以的。 GPU 内存也可能是一个限制因素
【解决方案2】:

您可以加快训练速度的另一种可能方式,以及您未充分利用 GPU 的可能原因是您使用了占位符。如果使用 Tensorflow

https://www.tensorflow.org/programmers_guide/threading_and_queues

【讨论】:

    【解决方案3】:

    这里有 2 行代码加快了我的执行速度。

    tf.compat.v1.disable_eager_execution()
    tf.config.optimizer.set_jit(True)
    

    请参阅here 了解即时执行,here 了解 jit 以判断它是否对您的情况有帮助。

    【讨论】:

      最近更新 更多