【发布时间】:2019-10-20 04:12:15
【问题描述】:
当使用 OpenNMT-py 训练模型时,我们会得到一个 dict 作为输出,其中包含网络的权重和偏差。但是,这些张量具有 requires_grad = False,因此没有梯度。例如。对于一层,我们可能有以下张量,表示编码器和解码器中的嵌入以及权重和偏差。它们都没有渐变属性。
encoder.embeddings.emb_luts.0.weight
decoder.embeddings.emb_luts.0.weight
encoder.rnn.weight_ih_l0
encoder.rnn.weight_hh_l0
encoder.rnn.bias_ih_l0
encoder.rnn.bias_hh_l0
decoder.rnn.layers.0.weight_ih
decoder.rnn.layers.0.weight_hh
decoder.rnn.layers.0.bias_ih
decoder.rnn.layers.0.bias_hh
OpenNMT-py 是否可以设置 requires_gradient = True 并带有一些我没有找到的选项,或者是否有其他方法可以获得这些张量的梯度?
【问题讨论】:
-
渐变相对于什么?梯度仅针对特定的训练批次定义,因此在训练后被丢弃。此外,在训练期间,梯度在每一步之后都会归零。
-
对于每个训练批次,是的。我想那时不会保留此信息。您是否有使用 OpenNMT-py 的经验以及该代码在哪里,例如,我会添加一个 tensorboardX 编写器来跟踪诸如渐变之类的东西?
标签: machine-learning deep-learning pytorch machine-translation opennmt