如下图所示(图片来自网络)。LSTM的核心思想是使得细胞状态Ct-1通过传送带,只经过少量的交互就输出Ct ,这使得之前的信息能够传递到当前,解决了RNN误差后向传播的梯度消失问题。
它与RNN一样,参数是共享。如下图所示,这三个LSTM细胞的参数是相同的,不同的是输入值不同,因此输出值Ht和Ct也不同。
对应的数学模型为
如果我们使用随机梯度下降法对网络进行优化,则输入数据和输出数据是逐个到来的。
如果读者不希望使用随机梯度下降的方法。只需将上面的损失函数进行求和
下面我们只介绍Jt的梯度求法,将这一部分搞懂后,大J的梯度也会比较容易求解出来。我们将采用矩阵求导的的链式法则简化公式,还不清楚需要先看一下这篇文章,否则下面的内容将使你眼花缭乱。
上面是Jt相对于B的梯度,都是列向量,而Jt相对于W矩阵的梯度就都是矩阵了。