RNN 的状态归一化答案

【问题标题】：State Normalization of RNNsRNN 的状态归一化
【发布时间】：2016-02-10 18:22:27
【问题描述】：

也许向计算机科学或交叉验证提出更好的问题？

我开始使用 LSTM 处理任意长度的序列，我遇到的一个问题是我没有看到解决的问题，就是我的网络似乎已经开发了几个线性增长的参数（也许作为时间尺度？）。

这样做的明显问题是训练数据以长度为x 的序列为界，因此网络会合理地增长此参数直到 tilmestep x。但在那之后，网络最终将成为 NAN，因为值变得过于极端。

有没有人读过任何关于随着时间的推移状态稳定化的规范化？

任何建议将不胜感激。

【问题讨论】：

【解决方案1】：

想法 #1：梯度裁剪通常应用于 RNN。下面是一个实现示例：How to effectively apply gradient clipping in tensor flow?

这是批量标准化 LSTM 单元的 Tensorflow 实现：https://github.com/OlavHN/bnlstm/blob/master/lstm.py

这里的文章解释了这个实现：Batch normalized LSTM for Tensorflow

【讨论】：