LSTM 权重 CRNN 架构中的批量归一化答案

【问题标题】：LSTM weights batch normalization in CRNN architectureLSTM 权重 CRNN 架构中的批量归一化
【发布时间】：2017-08-10 11:13:07
【问题描述】：

我根据https://arxiv.org/abs/1603.09025 在基于 Convolutional-RNN 的网络上尝试了 LSTM 权重的批量归一化，我在训练速度和性能方面得到了显着提升。从 CNN 中提取的特征被输入到 2 层双向 LSTM 中。

在我的第一个网络中，我使用了很少的特征图，因此 LSTM 层的输入为 128。但是，当我增加输入大小（例如 256）时，经过一些迭代后，我开始为 LSTM 输出获取 NaN（它有效没有批量标准化很好）。我知道这可能与小数除法有关。我还使用了 10^-6 的 epsilon，但仍然得到 NaN。

关于我可以做些什么来摆脱 NaN 的任何想法？谢谢。

【问题讨论】：

【解决方案1】：

对于那些有同样问题的人，使用 float64 数据类型而不是 float32 有助于解决这个问题。当然，这会影响内存，但我发现它是迄今为止唯一的解决方案。

【讨论】：