【数据挖掘导论】HW3

Exercise 1

【数据挖掘导论】HW3
Answer:

证明：

$dy=\sigma'(Wx)\bigodot(Wdx)=diag(\sigma'(Wx))Wdx)$ ， $\bigodot$ 表示尺寸相同的矩阵逐元素相乘

对照导数与微分的联系，可得：

$\frac{\partial y}{\partial x}=(diag(\sigma'(Wx))W)^T=W^Tdiag(\sigma'(Wx))$

Jacobi矩阵： $\frac{\partial y}{\partial x^T}=diag(\sigma'(Wx))W\in R^{n\times d}$
$diag(\sigma'(Wx))= \left[ \begin{matrix} (Wx)_{1} & 0 & \cdots & 0\\ 0 & (Wx)_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & (Wx)_{n} \end{matrix} \right]$
证明：

由于 $h_t$ 的递推性， $h_t$ 与所有 $h_i,i=1,\dots,t$ 均有联系，所以 $\frac{\partial h_t}{\partial W}=\frac{\partial h_t}{\partial h_t}\frac{\partial h_t}{\partial W}+\frac{\partial h_t}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial W}+\dots+\frac{\partial h_t}{\partial h_1}\frac{\partial h_1}{\partial W}=\sum_{k=1}^t\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}$

根据链式法则， $\frac{\partial L}{\partial W}=\sum_{t=0}^T \frac{\partial L_t}{\partial W}=\sum_{t=0}^T\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial W}=\sum_{t=0}^T\frac{\partial L_t}{\partial h_t}\sum_{k=1}^t\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}=\sum_{t=0}^T\sum_{k=1}^t\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}$

Exercise 2

【数据挖掘导论】HW3

Answer:

$\frac{\partial L}{\partial W}=\sum_{t=0}^3\sum_{k=1}^t\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}=\frac{\partial L_1}{\partial h_1}\frac{\partial h_1}{\partial h_1}\frac{\partial h_1}{\partial W}+\frac{\partial L_2}{\partial h_2}\frac{\partial h_2}{\partial h_1}\frac{\partial h_1}{\partial W}+\frac{\partial L_2}{\partial h_2}\frac{\partial h_2}{\partial h_2}\frac{\partial h_2}{\partial W}+\frac{\partial L_3}{\partial h_3}\frac{\partial h_3}{\partial h_1}\frac{\partial h_1}{\partial W}+\frac{\partial L_3}{\partial h_3}\frac{\partial h_3}{\partial h_2}\frac{\partial h_2}{\partial W}+\frac{\partial L_3}{\partial h_3}\frac{\partial h_3}{\partial h_3}\frac{\partial h_3}{\partial W}$ ∂W∂L=∑t=03∑k=1t∂ht∂Lt∂hk∂ht∂W∂hk=∂h1∂L1∂h1∂h1∂W∂h1+∂h2∂L2∂h1∂h2∂W∂h1+∂h2∂L2∂h2∂h2∂W∂h2+∂h3∂L3∂h1∂h3∂W∂h1+∂h3∂L3∂h2∂h3∂W∂h2+∂h3∂L3∂h3∂h3∂W∂h3

$\frac{\partial h_t}{\partial h_k}=\frac{\partial h_t}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial h_t-2}\dots\frac{\partial h_{k+1}}{\partial h_k}=\Pi_{j=k+1}^t\frac{\partial h_j}{\partial h_{j-1}}=\Pi_{j=k+1}^tW^Tdiag(\sigma')$ ，所以反向传播n次，矩阵乘法 $W^Tdiag(\sigma')$ 需要进行n次。
证明：
- 当n=1时， $M=Q\Lambda Q^{-1}$ 成立。
- 假设当n=k时， $M^k=Q\Lambda^k Q^{-1}$ 。
  
  则当n=k+1时， $M^{k+1}=M^kM = Q\Lambda^{k} Q^{-1}Q\Lambda Q^{-1}=Q\Lambda^{k} \Lambda Q^{-1}=Q\Lambda^{k+1} Q^{-1}$ 成立。
- 综上，对于所以 $n\in N^+$ ， $M^n=Q\Lambda^n Q^{-1}$ 均成立。
${} W^{30}=Q\Lambda^{30}Q^{-1}= \left[ \begin{matrix} 0.8 & -0.6\\ 0.6 & 0.8\\ \end{matrix} \right] \left[ \begin{matrix} 0.4^{30} & 0\\ 0 & 0.9^{30}\\ \end{matrix} \right] \left[ \begin{matrix} 0.8 & 0.6\\ -0.6 & 0.8\\ \end{matrix} \right]$
- 在求 $W^{30}$ 时仅需要在 $\Lambda$ 矩阵特征值的位置求幂方，得到 $\Lambda^{30}$ 矩阵。
- W特征值全小于1时，n取较大值时， $\Lambda^n$ 趋于0矩阵，求得的 $W^{n}$ 也趋于0矩阵，会造成梯度消失。
- W特征值全大于1时，n取较大值时， $\Lambda^n$ 对角线数值趋于无穷大，求得的 $W^{n}$ 数值极大，会造成梯度爆炸。
- W特征值全等于1时，无论n取何值， $\Lambda^n$ 和W矩阵均为为单位矩阵，梯度为单位矩阵恒不变。

Exercise 3

【数据挖掘导论】HW3

Answer:

$f_t$ ：忘记门，对上一个节点传进来的输入进行选择性忘记。通过计算得到的 $f_t$ （f表示forget）来作为忘记门控，来控制上一个状态的 $C_{t-1}$ 哪些需要留哪些需要忘。

$i_t$ ：输入门，将这个阶段的输入有选择性地进行“记忆”。用于对输入 $\hat C_t$ 进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。

$o_t$ ：输出门，将决定哪些将会被当成当前状态的输出。对上一阶段得到的 $C_t$ 进行了放缩（通过一个tanh**函数进行变化）后由 $o_t$ 决定输出。
sigmoid函数将三个门的输入转为 $[0,1]$ 数值输出，表示每个部分的通过率。引入的两个tanh层输出的范围为 $[-1,1]$ ，将tanh层输出与矩阵点乘，虽然等式符号都是相加，但是tanh层输出矩阵中每个元素的符号决定实际的加或减。
$\frac{\partial C_t}{\partial C_{k}}=\Pi_{t={k+1}}^t\frac{\partial C_t}{\partial C_{t-1}}=I$ ,

这也是LSTM优于RNN的地方，LSTM的结构天然的可以克服梯度消失的问题。

梯度消失的原因是 $\frac{\partial C_t}{\partial C_{k}}=\Pi_{t={k+1}}^t\frac{\partial C_t}{\partial C_{t-1}}$ 部分，如果连乘项数值小于1，则会造成梯度消失。

LSTM则是通过实现将连乘项 $\frac{\partial C_t}{\partial C_{t-1}}\approx 0|1$ 从而解决了传统RNN中梯度消失的问题。