变分推断和指数族分布

一、变分推断基础

首先，对数先验概率有：

\begin{aligned} (1) & l n p (X) & = l n (\frac{p (X, Z)}{p (Z | X)}) \\ (2) & = l n (\frac{p (X, Z)}{q (Z)} \cdot \frac{q (Z)}{p (Z | X)}) \\ (3) & = l n (\frac{p (X, Z)}{q (Z)}) + l n (\frac{q (Z)}{p (Z | X)}) \end{aligned}

\begin{aligned} (4) & \Rightarrow l n (p (X)) = & \int q (Z) l n (\frac{p (X, Z)}{q (Z)}) d Z + \int q (Z) l n (\frac{q (Z)}{p (Z | X)}) d Z \\ (5) & = \int q (Z) l n (p (X, Z)) d Z - \int q (Z) l n (q (Z)) d Z \\ (6) & + \int q (z) l n (\frac{q (Z)}{p (Z | X)}) d Z \\ (7) & = L (q) + K L (q | | p) \end{aligned}

上面的式子 $L (q)$ 里的变量是一个函数，我们通过改变函数使得函数的函数最大化，我们称这种研究思想为变分；

由于 $K L (q | | p) \geq 0$ ，故 $l n (p (X)) \geq L (q)$ ，我们给上面两项命名如下：

$E v i d e n c e L o w e r B o u n d (E L O B) : L (q) = \int q (Z) l n (p (X, Z)) d Z - \int q (Z) l n (q (Z)) d Z$

$K L d i v e r g e n c e : K L (q | | p) = \int q (z) l n (\frac{q (Z)}{p (Z | X)}) d Z$

有时候真实的后验分布非常复杂，我们想要利用简单的分布（我们知道这个分布的期望，极大值等）来近似这个复杂的后验分布，从而使得我们可以更加容易地进行求解。因此我们通过最小化 KL 散度使得我们自己定的 $q (Z)$ 尽可能地逼近后验分布 $p (Z | X)$ （从下图可以较直观地看出来这个过程，其中绿色分布为我们想求解的后验分布，蓝色分布为我们已知较简单地分布 q(Z)，通过不断修改 q(Z) 中的参数，使得它越来越逼近我们想求解的后验分布）。

变分推断和指数族分布

Note: Picture source

从上面的式子，我们知道，最小化 KL 散度，等价于最大化 ELBO。下面将一步步介绍如何最大化 ELBO $L (q)$ ：

q(Z) 的选择

假设我们选择的 q(Z) 满足下面的式子：

q (Z) = \prod_{i = 1}^{m} q_{i} (Z_{i})

将这个 q(Z) 代换到 ELBO中，我们有：

\begin{aligned} (8) & L (q) & = \int q (Z) l n (p (X, Z)) d Z - \int q (Z) l n (q (Z)) d Z \\ (9) & = \int \prod_{i = 1}^{m} q_{i} (Z_{i}) l n (p (X, Z)) d Z \\ (10) & - \int \prod_{i = 1}^{m} q_{i} (Z_{i}) \sum_{i = 1}^{m} l n (q_{i} (Z_{i})) d Z \end{aligned}

下面我们对这个式子进行化简，先看上式第一项：

\begin{aligned} (11) & (p a r t 1) & = \int \prod_{i = 1}^{m} q_{i} (Z_{i}) l n (p (X, Z)) d Z \\ (12) & = \int_{Z_{1}} \dots \int_{Z_{m}} \prod_{i = 1}^{m} q_{i} (Z_{i}) l n (p (X, Z)) d Z_{1} \dots d Z_{m} \\ (13) & = & \int_{Z_{j}} q_{j} (Z_{j}) (\int_{Z_{i \neq j}} \dots \int l n (p (X, Z)) \prod_{i \neq j}^{m} q_{i} (Z_{i}) d Z_{i}) d Z_{j} \end{aligned}

我们只关注第 j 项的情况下，可以写成如下形式：

(p a r t 1) = \int_{Z_{j}} q_{j} (Z_{j}) (E_{\prod_{i \neq j}^{m} q_{i} (Z_{i})} [l n (p (X, Z))]) d Z_{j}

第二项，可以作如下化简：

\begin{aligned} (14) & (p a r t 2) & = \int \prod_{i = 1}^{m} q_{i} (Z_{i}) \sum_{i = 1}^{m} l n (q_{i} (Z_{i})) d Z \\ (15) & = \sum_{i = 1}^{m} (\int_{Z_{i}} q_{i} (Z_{i}) l n (q_{i} (Z_{i})) d Z_{i}) \end{aligned}

我们只关注第 j 项的情况下，可以写成如下形式：

(p a r t 2) = \int_{Z_{j}} q_{j} (Z_{j}) l n (q_{j} (Z_{j})) d Z_{j} + c o n s t

const 是不含 $Z_{j}$ 的那些项。

结合两部分，我们代入 ELOB 中，得到：

L (q) = \int_{Z_{j}} q_{j} (Z_{j}) (E_{\prod_{i \neq j}^{m} q_{i} (Z_{i})} [l n (p (X, Z))]) d Z_{j} - \int_{Z_{j}} q_{j} (Z_{j}) l n (q_{j} (Z_{j})) d Z_{j} + c o n s t

作如下记号：

l n ({\tilde{p}}_{j} (X, Z_{j})) = E_{\prod_{i \neq j}^{m} q_{i} (Z_{i})} [l n (p (X, Z))]

这样我们就可以将 ELOB 表示成如下:

L (q) = \int_{Z_{j}} q_{j} (Z_{j}) l n [\frac{{\tilde{p}}_{j} (X, Z_{j})}{q_{j} (Z_{j})}] + c o n s t

由上式，最大化 $L (q)$ ，等价于最小化 $K L (E_{\prod_{i \neq j}^{m} q_{i} (Z_{i})} [l n (p (X, Z))] | | q_{j} (Z_{j}))$

因此，我们可以找到一个近似的最优的 $q_{j}^{*} (Z_{j})$ ，使得：

l n (q_{j}^{*} (Z_{j})) = E_{\prod_{i \neq j}^{m} q_{i} (Z_{i})} [l n (p (X, Z))]

二、指数族分布(Exponential Family distributions )

大部分的分布我们会去寻找它是否能够根据它的 自然参数 写成指数族分布的形式（因为我们希望分布是类似指数族分布这样具有共轭分布、容易得到解析解的分布形式）：

p (x | η) = h (x) e x p (T (x)^{T} \cdot η - A (η))

其中， $η$ 为自然参数（nature parameter）, $T (y)$ 为 sufficient statistic， $A (η)$ 为 log normalizer ；

其中 log normalizer 具有归一化的作用，因为：

\frac{\int_{x} h (x) e x p (T (x)^{T})}{e x p (A (η))} = 1

指数族分布的性质（优势）

1、 $A^{'} (η) = \frac{\sum_{i = 1}^{n} T (x_{i})}{N}$

证：

\begin{aligned} (16) & \underset{η}{a r g m a x} [l o g P (X | η)] \\ (17) & = \underset{η}{a r g m a x} [l o g \prod_{i = 1}^{n} P (X | η)] \\ (18) & = \underset{η}{a r g m a x} & [l o g (\prod_{i = 1}^{n} k (x_{i}) e x p (\sum_{i = 1}^{n} T (x_{i})^{T} \cdot η - n A (η)))] \\ (19) & = \underset{η}{a r g m a x} [\sum_{i = 1}^{n} T (x_{i})^{T} \cdot η - n A (η)] \end{aligned}

\Rightarrow \frac{\partial (\sum_{i = 1}^{n} T (x_{i})^{T} \cdot η - n A (η))}{\partial η} = \sum_{i = 1}^{n} T (x_{i}) - n A^{'} (η) = 0

\Rightarrow A^{'} (η) = \frac{\sum_{i = 1}^{n} T (x_{i})}{N}

2、 $E_{p (X | η)} [T (X)] = ▽_{η} A (η)$

\begin{aligned} (20) & \int_{x} h (x) e x p (T (x)^{T} η - A (η)) d x = 1 \\ (21) & \Rightarrow ▽_{η} (\int_{x} h (x) e x p (T (x)^{T} η - A (η)) d x) = 0 \\ (22) & \Rightarrow \int_{x} ▽_{η} (h (x) e x p (T (x)^{T} η - A (η))) d x = 0 \\ (23) & \Rightarrow \int_{x} (h (x) e x p (T (x)^{T} η - A (η))) (T (x) - ▽_{η} A (η)) d x = 0 \\ (24) & \Rightarrow \int_{x} (h (x) e x p (T (x)^{T} η - A (η))) T (x) d x - \int_{x} (h (x) e x p (T (x)^{T} η - A (η))) ▽_{η} A (η) d x = 0 \\ (25) & \Rightarrow E_{p (X | η)} [T (X)] = ▽_{η} A (η) \end{aligned}

（注意：性质二和性质一是不一样的，从证明可以很明显看出来）

3、指数族分布具有共轭先验

由贝叶斯公式，我们有：

\begin{aligned} (26) & p (β | X, Z, α) \propto p (X, Z | β) p (β) \\ (27) & = h (X, Z) e x p (T (X, Z)^{T} β - A_{l} (β)) \\ (28) & \cdot h (β) e x p (T (β)^{T} α - A (α)) \\ (29) & \Rightarrow l e t T (β) = [β, - A_{l} (β)]^{T}, α = [α_{1}, α_{2}]^{T} \\ (30) & \propto h (β) e x p (T (X, Z)^{T} β - A_{l} (β) + α_{1} β - α_{2} A_{l} (β)) \\ (31) & = h (β) e x p [(T (X, Z) + α_{1}) β - (1 + α_{2}) A_{l} (β)] \\ (32) & = h (β) e x p [T (β)^{T} \cdot [\begin{matrix} \tilde{α_{1}} \\ \tilde{α_{2}} \end{matrix}]] \end{aligned}

因此，当先验分布的 sufficient statistic 的第二项取为 $- A_{l} (β)$ ，即似然函数的 log normalizer 时，它和后验分布具有相同的分布，只是参数不同而已。

高斯分布（1维）：自然参数表达

\begin{aligned} (33) & N (x; μ, σ^{2}) & = (2 π σ^{2})^{- \frac{1}{2}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}} \\ (34) & = e x p (- \frac{x^{2} - 2 x μ + μ^{2}}{2 σ^{2}} - \frac{1}{2} l n (2 π σ^{2})) \\ (35) & = e x p ([x, x^{2}] \cdot [\frac{μ}{σ^{2}}, - \frac{1}{2 σ^{2}}]^{T} - \frac{μ^{2}}{2 σ^{2}} - \frac{1}{2} l n (2 π σ^{2})) \end{aligned}

其中， $T (x) = [x, x^{2}]$ ， $η = [η_{1}, η_{2}]^{T} = [\frac{μ}{σ^{2}}, - \frac{1}{2 σ^{2}}]^{T}$ ;

从中我们可以反解出 $μ, σ^{2}$ ， $σ^{2} = - \frac{1}{2 η_{2}}$ ； $μ = - \frac{η_{1}}{2 η_{2}}$

于是，我们可以写出高斯分布的自然参数表达如下：

\begin{aligned} (36) & \tilde{N} (x; η) & = e x p ([x, x^{2}] \cdot [η_{1}, η_{2}]^{T} - \frac{μ^{2}}{2 σ^{2}} - \frac{1}{2} l n (2 π σ^{2})) \\ (37) & = e x p ([x, x^{2}] \cdot [η_{1}, η_{2}]^{T} - \frac{(\frac{- η_{1}}{2 η_{2}})^{2}}{2 (\frac{- 1}{2 η_{2}})} - \frac{1}{2} l n (2 π (\frac{- 1}{2 η_{2}}))) \\ (38) & = & e x p (T (x)^{T} η - (- \frac{η_{1}^{2}}{4 η_{2}} - \frac{1}{2} l n (- 2 η_{2})) - \frac{1}{2} l n (2 π)) \end{aligned}

其中， $A (η) = - \frac{η_{1}^{2}}{4 η_{2}} - \frac{1}{2} l n (- 2 η_{2})$

我们利用性质一的结论：

[\begin{matrix} \frac{\partial A (η)}{\partial η_{1}} \\ \frac{\partial A (η)}{\partial η_{2}} \end{matrix}] = [\begin{matrix} - \frac{η_{1}}{2 η_{2}} \\ (\frac{- η_{1}}{2 η_{2}})^{2} - \frac{1}{2 η_{2}} \end{matrix}] = [\begin{matrix} μ \\ μ^{2} + σ^{2} \end{matrix}] = [\begin{matrix} \frac{\sum_{i = 1}^{n} x_{i}}{N} \\ \frac{\sum_{i = 1}^{n} x_{i}^{2}}{N} \end{matrix}]

即， $μ = \frac{\sum_{i = 1}^{n} x_{i}}{N}$ ， $σ^{2} = \frac{\sum_{i = 1}^{n} x_{i}^{2}}{N} - μ^{2} = \frac{\sum_{i = 1}^{n} (x_{i} - μ)^{2}}{N}$

这个结果显然和我们直接求高斯分布的极大似然的结论是一样的，但直接求明显求解过程要复杂很多。

三、变分推断与指数族分布

当先验和后验都是指数族分布时，我们可以更容易地找到近似后验分布的 $q_{j}^{*} (Z_{j})$ ；下面我们来看看这个过程：

本文第一部分已经得到 ELBO：

\begin{aligned} (39) & L (q) & = \int q (Z) l n (p (X, Z)) d Z - \int q (Z) l n (q (Z)) d Z \end{aligned}

我们把 $Z$ 分为两部分： $Z = {Z, β}$ ，代入上式，得到：

\begin{aligned} (40) & L (q) & = E_{q (Z, β)} [l o g p (X, Z, β | α)] - E_{q (Z, β)} [l o g q (Z, β)] \end{aligned}

首先，我们把后验分布写出指数族分布的形式，并且用 $q$ 去近似它：

p (β | X, Z, α) = h (β) e x p (T (β)^{T} \cdot η_{g} (X, Z, α) - A_{g} (η_{g} (X, Z, α)))

q (β | λ) = h (β) e x p (T (β)^{T} λ - A_{g} (λ))

以及，

p (Z | X, β) = h (Z) e x p (T (Z)^{T} \cdot η_{l} (X, β) - A_{l} (η_{l} (X, β)))

q (Z | Φ) = h (Z) e x p (T (Z)^{T} Φ - A_{l} (Φ))

则我们可以通过改变 $λ, Φ$ ，来改变 ELBO:

\begin{aligned} (41) & L (λ, Φ) & = E_{q (Z, β)} [l o g p (X, Z, β | α)] - E_{q (Z, β)} [l o g q (Z, β)] \end{aligned}

其中，为了简单，我们选取 $q (Z, β) = q (Z) q (β)$

1、固定 $Φ$ ，优化 $λ$

\begin{aligned} (42) & L (λ) & = E_{q} [l o g p (X, Z, β | α)] - E_{q} [l o g q (Z, β)] \\ (43) & = E_{q} [l o g p (β | X, Z, α)] + E_{q} [l o g p (X, Z)] \\ (44) & - E_{q} [l o g q (Z)] - E_{q} [l o g q (β)] \\ (45) & = E_{q} [l o g p (β | X, Z, α)] - E_{q} [l o g q (β)] + c o n s t \\ (46) & = E_{q} [l o g (h (β) e x p (T (β)^{T} \cdot η_{g} (X, Z, α) - A_{g} (η_{g} (X, Z, α))))] - E_{q} [l o g q (β)] + c o n s t \\ (47) & = E_{q} [l o g (h (β)) + E_{q} [T (β)^{T} \cdot η_{g} (X, Z, α)] \\ (48) & - E_{q} [l o g (h (β) e x p (T (β)^{T} λ - A_{g} (λ)))] + c o n s t \\ (49) & = E_{q (Z | Φ)} [η_{g} (X, Z, α)] E_{q (β | λ)} [T (β)] - λ E_{q} [T (β)] + \\ (50) & A_{g} (λ) + c o n s t \end{aligned}

由指数族分布的性质二：

E_{p (X | η)} [T (X)] = ▽_{η} A (η)

代入上式，则有：

L (λ) = E_{q (Z | Φ)} [η_{g} (X, Z, α)] ▽_{λ} A_{g} (λ) - λ ▽_{λ} A_{g} (λ) + A_{g} (λ) + c o n s t

最大化 $L (λ)$ ，我们对其求导并令结果为0：

\begin{aligned} (51) & L (λ) & = E_{q (Z | Φ)} [η_{g} (X, Z, α)] ▽_{λ}^{2} A_{g} (λ) - ▽_{λ} A_{g} (λ) - λ ▽_{λ}^{2} A_{g} (λ) + ▽_{λ} A_{g} (λ) + c o n s t \\ (52) & = E_{q (Z | Φ)} [η_{g} (X, Z, α)] ▽_{λ}^{2} A_{g} (λ) - λ ▽_{λ}^{2} A_{g} (λ) \\ (53) & = ▽_{λ}^{2} A_{g} (λ) (E_{q (Z | Φ)} [η_{g} (X, Z, α)] - λ) \\ (54) & = 0 \end{aligned}

由于 $▽_{λ}^{2} A_{g} (λ) \neq 0$ ，因此我们得到：

λ = E_{q (Z | Φ)} [η_{g} (X, Z, α)]

2、固定 $λ$ ，优化 $Φ$

同上面的推到一样，我们可以得到类似的形式：

Φ = E_{q (β | λ)} [η_{l} (X, β)]

注意这里只选取了两个变量 $λ, Φ$ ；如果有多个变量的情况，应该用除了本身的分布以外剩下的所有分布的乘积来求期望。通过不断地迭代上面两个公式，不断地更新参数，直至收敛。

四、参考资料

[1] 李航《统计学习方法》
[2] 徐亦达教授的自视频
[3] machine-learning-notes.Professor Richard Xu .