Exercise 1
Answer:
-
证明:
,表示尺寸相同的矩阵逐元素相乘
对照导数与微分的联系,可得:
Jacobi矩阵:
-
证明:
由于的递推性,与所有均有联系,所以
根据链式法则,
Exercise 2
Answer:
-
,所以反向传播n次,矩阵乘法需要进行n次。
-
证明:
-
当n=1时,成立。
-
假设当n=k时,。
则当n=k+1时,成立。
-
综上,对于所以,均成立。
-
-
- 在求时仅需要在矩阵特征值的位置求幂方,得到矩阵。
- W特征值全小于1时,n取较大值时,趋于0矩阵,求得的也趋于0矩阵,会造成梯度消失。
- W特征值全大于1时,n取较大值时,对角线数值趋于无穷大,求得的数值极大,会造成梯度爆炸。
- W特征值全等于1时,无论n取何值,和W矩阵均为为单位矩阵,梯度为单位矩阵恒不变。
Exercise 3
Answer:
-
:忘记门,对上一个节点传进来的输入进行选择性忘记。通过计算得到的(f表示forget)来作为忘记门控,来控制上一个状态的 哪些需要留哪些需要忘。
:输入门,将这个阶段的输入有选择性地进行“记忆”。用于对输入 进行选择记忆。哪些重要则着重记录下来,哪些不重要,则少记一些。
:输出门,将决定哪些将会被当成当前状态的输出。对上一阶段得到的 进行了放缩(通过一个tanh**函数进行变化)后由 决定输出。
-
sigmoid函数将三个门的输入转为数值输出,表示每个部分的通过率。引入的两个tanh层输出的范围为,将tanh层输出与矩阵点乘,虽然等式符号都是相加,但是tanh层输出矩阵中每个元素的符号决定实际的加或减。
-
,
这也是LSTM优于RNN的地方,LSTM的结构天然的可以克服梯度消失的问题。
梯度消失的原因是部分,如果连乘项数值小于1,则会造成梯度消失。
LSTM则是通过实现将连乘项从而解决了传统RNN中梯度消失的问题。