【发布时间】:2019-06-11 16:11:01
【问题描述】:
我正在训练一个网络以使用 LSTM 对文本进行分类。我为单词输入使用了一个随机初始化且可训练的嵌入层。网络使用 Adam Optimizer 进行训练,单词通过 one-hot-encoding 输入网络。
我注意到嵌入层中表示的单词数量会严重影响训练时间,但我不明白为什么。将网络中的单词数从 200'000 增加到 2'000'000 几乎使训练 epoch 的时间增加了一倍。
训练不应该只更新在当前数据点的预测过程中使用的权重吗?因此,如果我的输入序列始终具有相同的长度,则无论嵌入层的大小如何,都应该始终发生相同数量的更新。
【问题讨论】:
标签: tensorflow optimization word-embedding