正规方程之矩阵求导(Matrix derivatives)

1、背景

最近，开始学习机器学习之旅。我的学习方式是：跟着斯坦福公开课Andrew Ng的讲义和视屏开始学习。

下面，简单介绍一下线性回归下面的普通方程之矩阵求导。
对应英文章节：Linear Regression-->The normal equations-->Matrix derivatives

2、矩阵求导公式

$\nabla_{A} t r A B = B^{T}$ $(1)$

$\nabla_{A^{T}} f (A) = (\nabla_{A} f (A))^{T}$ $(2)$

$\nabla_{A} t r A B A^{T} C = C A B + C^{T} A B^{T}$ $(3)$

$\nabla_{A} | A | = | A | (A^{- 1})^{T}$ $(4)$

3、公式推导

3.1 公式(1)的推导

$知识须知 :$
$1 、 t r 为矩阵的迹，即对角线元素之和。 t r 既然是对角线元素之和，那么矩阵为正方形矩阵。$
$2 、 \nabla 符号为求梯度，实际上就是求导。 \nabla_{A} 就是对 A 矩阵求导。$

$设 A = (\begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix})$ $, B = (\begin{matrix} b_{11} & b_{12} \\ b_{21} & b_{22} \end{matrix})$

$根据矩阵的相乘，那么有 :$

A B = (\begin{matrix} a_{11} b_{11} + a_{12} b_{21} & a_{11} b_{12} + a_{12} b_{22} \\ a_{21} b_{11} + a_{22} b_{21} & a_{21} b_{12} + a_{22} b_{22} \end{matrix})

设 F = t r A B

而 t r A B = a_{11} b_{11} + a_{12} b_{21} + a_{21} b_{12} + a_{22} b_{22}

则 有 \nabla_{A} t r A B = (\begin{matrix} \frac{\partial F}{\partial a_{11}} & \frac{\partial F}{\partial a_{12}} \\ \frac{\partial F}{\partial a_{21}} & \frac{\partial F}{\partial a_{22}} \end{matrix}) = (\begin{matrix} b_{11} & b_{21} \\ b_{12} & b_{22} \end{matrix}) = B^{T}

$得证$

3.2 公式(2)的推导

$设 A = (\begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix})$

$设 f (A) = 2 a_{11} + 3 a_{12} + 4 a_{21} + 5 a_{22}$

$则 \nabla_{A} f (A) = (\begin{matrix} 2 & 3 \\ 4 & 5 \end{matrix})$

$转置后为 (\nabla_{A} f (A))^{T} = (\begin{matrix} 2 & 4 \\ 3 & 5 \end{matrix})$

$而 \nabla_{A^{T}} f (A) = (\begin{matrix} 2 & 4 \\ 3 & 5 \end{matrix}) = (\nabla_{A} f (A))^{T} 得证$

3.3 公式(3)的推导

$知识须知 :$
$1 、 t r (A) = t r (A^{T})$
$2 、 \nabla_{A} t r (A B) = B^{T}$
$3 、 (A B)^{T} = B^{T} A^{T}$

$令 X = A$

$\nabla_{A} t r (A B A^{T} C) = \nabla_{X} t r (X B A^{T} C) + \nabla_{X} t r (A B X^{T} C)$
$= (B A^{T} C)^{T} + \nabla_{X} t r (C A B X^{T})$
$= B^{T} A C^{T} + \nabla_{X} t r (X (C A B)^{T})$
$= B^{T} A C^{T} + ((C A B)^{T})^{T}$
$= B^{T} A C^{T} + \nabla_{X} t r (X (C A B)^{T})$
$= C^{T} A B^{T} + C A B 得证$

3.4 公式(4)的推导

$知识须知 :$
$1 、 A A^{- 1} = E = 1 (单位矩阵)$
$2 、 t r a = a (a 为是实数)$
$3 、 t r a A = a t r A$
$4 、 \nabla_{A} t r A B = B^{T}$
$5 、 | A | 为行列式，既然是行列式就能求出一个实数，则 | A | 为一个实数$

$\nabla_{A} | A | = | A | \nabla_{A} t r 1$
$= | A | \nabla_{A} t r E$
$= | A | \nabla_{A} t r A A^{- 1}$
$= | A | (A^{- 1})^{T}$

4、相关资料

视屏网站：斯坦福公开课视频-机器学习
讲义网站：斯坦福公开课讲义-机器学习

正规方程之矩阵求导(Matrix derivatives)