【发布时间】:2017-08-10 11:13:07
【问题描述】:
我根据https://arxiv.org/abs/1603.09025 在基于 Convolutional-RNN 的网络上尝试了 LSTM 权重的批量归一化,我在训练速度和性能方面得到了显着提升。从 CNN 中提取的特征被输入到 2 层双向 LSTM 中。
在我的第一个网络中,我使用了很少的特征图,因此 LSTM 层的输入为 128。但是,当我增加输入大小(例如 256)时,经过一些迭代后,我开始为 LSTM 输出获取 NaN(它有效没有批量标准化很好)。我知道这可能与小数除法有关。我还使用了 10^-6 的 epsilon,但仍然得到 NaN。
关于我可以做些什么来摆脱 NaN 的任何想法?谢谢。
【问题讨论】:
标签: machine-learning tensorflow neural-network conv-neural-network lstm