如下图所示(图片来自网络)。LSTM的核心思想是使得细胞状态Ct-1通过传送带,只经过少量的交互就输出Ct ,这使得之前的信息能够传递到当前,解决了RNN误差后向传播的梯度消失问题。

LSTM反向传播算法 (基于矩阵求导的方法)

它与RNN一样,参数是共享。如下图所示,这三个LSTM细胞的参数是相同的,不同的是输入值不同,因此输出值Ht和Ct也不同。

LSTM反向传播算法 (基于矩阵求导的方法)

对应的数学模型为

LSTM反向传播算法 (基于矩阵求导的方法)

如果我们使用随机梯度下降法对网络进行优化,则输入数据和输出数据是逐个到来的。

LSTM反向传播算法 (基于矩阵求导的方法)

如果读者不希望使用随机梯度下降的方法。只需将上面的损失函数进行求和

LSTM反向传播算法 (基于矩阵求导的方法)

下面我们只介绍Jt的梯度求法,将这一部分搞懂后,大J的梯度也会比较容易求解出来。我们将采用矩阵求导的的链式法则简化公式,还不清楚需要先看一下这篇文章,否则下面的内容将使你眼花缭乱。

LSTM反向传播算法 (基于矩阵求导的方法)

上面是Jt相对于B的梯度,都是列向量,而Jt相对于W矩阵的梯度就都是矩阵了。

LSTM反向传播算法 (基于矩阵求导的方法)

相关文章:

  • 2021-12-18
  • 2021-04-05
  • 2021-12-28
  • 2021-05-12
猜你喜欢
  • 2021-09-05
  • 2022-12-23
  • 2022-12-23
  • 2021-10-18
  • 2021-05-28
  • 2021-08-05
相关资源
相似解决方案