【问题标题】:LSTM weights batch normalization in CRNN architectureLSTM 权重 CRNN 架构中的批量归一化
【发布时间】:2017-08-10 11:13:07
【问题描述】:

我根据https://arxiv.org/abs/1603.09025 在基于 Convolutional-RNN 的网络上尝试了 LSTM 权重的批量归一化,我在训练速度和性能方面得到了显着提升。从 CNN 中提取的特征被输入到 2 层双向 LSTM 中。

在我的第一个网络中,我使用了很少的特征图,因此 LSTM 层的输入为 128。但是,当我增加输入大小(例如 256)时,经过一些迭代后,我开始为 LSTM 输出获取 NaN(它有效没有批量标准化很好)。我知道这可能与小数除法有关。我还使用了 10^-6 的 epsilon,但仍然得到 NaN。

关于我可以做些什么来摆脱 NaN 的任何想法?谢谢。

【问题讨论】:

    标签: machine-learning tensorflow neural-network conv-neural-network lstm


    【解决方案1】:

    对于那些有同样问题的人,使用 float64 数据类型而不是 float32 有助于解决这个问题。当然,这会影响内存,但我发现它是迄今为止唯一的解决方案。

    【讨论】:

    • 你在哪一步使用 float64 ?输入?
    猜你喜欢
    • 2020-04-04
    • 2019-01-13
    • 2018-04-05
    • 2018-07-10
    • 1970-01-01
    • 2018-03-28
    • 2017-08-16
    • 1970-01-01
    • 2018-05-18
    相关资源
    最近更新 更多