变分自编码器

变分自编码器是一种生成模型

参考文献苏剑林. (2018, Mar 18). 《变分自编码器（一）：原来是这么一回事》

流程

给定一个数据集 $X$ (其中 $X=\{x_1, x_2, \cdots,x_n\}$ )，和GAN一样，都希望求出 $X$ 概率分布 $p(X)$ 。我们可以直接在概率分布中采样，得到（生成）所有的我们想要的数据（包括数据集里没有的数据）。

但是概率分布 $p(X)$ 很难求出，所以我们希望借助隐变量 $Z$ ，间接求出 $X$ 。假设隐变量 $Z$ 服从某个常见的分布 $q(Z)$ ，并且存在某个映射 $X=g(Z)$ （映射也可看做条件概率分布 $q(X|Z)$ ），能够将 $Z$ 变换成 $X$ 。那么我们就可以直接在分布 $q(Z)$ ，随机采样一个 $z_i$ ，根据映射得到一个 $x_i=g(z_i)$ 。

此时， $X$ 的分布可以表示为
$q(X)=\int q(X,Z) \mathrm{d}Z=\int q(X|Z)q(Z) \mathrm{d}Z$
其中 $q(X,Z)= q(X|Z)q(Z)$ ，即假设了联合概率分布存在，且 $q(Z)$ 是边缘分布 $q(\cdot ,Z)$ ，同理 $q(X)=q(X,\cdot)$

我们希望在这个过程中，生成的 $x$ 能够与数据集中某张图片非常像，甚至一模一样。但是这个由随机采样 $z_i$ 生成的 $x_?$ 应该和谁对比呢？

我们假设 $x_?$ 与数据集中样本 $x_i$ 相关，即算loss函数时，应对比 $x_?$ 与 $x_i$ 之间的差异。如此一来，样本 $x_i$ 也必须和 $z_i$ ，甚至分布 $q(Z)$ 产生联系，才能保证 $x_?$ 对应到 $x_i$

所以假设数据集 $X$ 的真实分布为 $p(X)$ ，从分布 $p(X)$ ，随机采样一个点 $x_i$ 。我们可以求得一个专属于 $x_i$ 的分布 $p(Z|x_i)$ ，在分布 $p(Z|x_i)$ 随机采样一个点 $\hat z_i$ 。
此时 $Z_i$ 的分布可以表示为：
$p(Z_i)=\int p(Z|x_i)p(X)\mathrm{d}X$

总结：变分自编码器流程如下
编码过程：在数据集中取样本 $x_i$ （其中数据集的分布为 $p(X)$ ，求出专属于 $x_i$ 的分布 $p(Z|x_i)$ ，在分布 $p(Z|x_i)$ 随机采样一个点 $\hat z_i$ 。其中 $p(Z_i)=\int p(Z|x_i)p(X)\mathrm{d}X$

解码过程：在隐变量分布 $q(Z)$ 中，随机采样 $z_i$ 。通过映射 $X=g(Z)$ ，即分布 $q(X|Z)$ ，得到样本近似 $\hat x_i$ 。其中 $q(X)=\int q(X,Z) \mathrm{d}Z=\int q(X|Z)q(Z) \mathrm{d}Z$

推导

从上述流程我们可以看出：我们要让 $q(Z)$ 和 $p(Z|x_i)$ 一样，才能保证随机采样的过程可靠。要让 $q(X)=p(X)$ ，才能保证生成的图片足够真实

回顾一下主要目的：借助隐变量 $q(Z)$ ，求出数据的真实分布 $p(X)$ 。即用解码过程中求出的 $q(X)$ 去逼近真实分布 $p(X)$ 。在此过程中还需要保证隐变量采样的一致。

编码过程

给定一个真实样本 $x_i$ ，利用神经网络求得一个专属于 $x_i$ 的分布 $p(Z|x_i)$ 。假设这个专属的分布属于正态分布（独立，多元）。其中专属是因为我们要从这个分布中采样一个隐变量 $z_i$ ，用它去拟合 $x_i$ 。
正态分布仅需要两个变量 $\mu_i,\delta_i$ ，所以构造两个神经网络 $f_1,f_2$ 计算专属于 $x_i$ 的 $\mu_i,\delta_i$ 就可以了。 $\mu_i=f_1(x_i)\;,\;\delta_i=f_2(x_i)\;,\; p(Z|x_i)=N(\mu_i,\delta_i)$

在解码的过程中，我们希望生成的 $\hat x_i$ 与 $x_i$ 的重构误差尽可能的小，即 $D(\hat x_i\;,\;x_i) \to 0$ . 但由于噪声（隐变量） $z_i$ 是从 $p(Z|x_i)$ 中采样得到（也可以说是从 $q(Z)$ 中采样，这里不做区分，下面再讲）。

它的随机性会给网络造成很大困难。为了让网络拟合得更好，网络趋向于让 $\delta_i\to 0$ ，即噪声 $z_i$ 的变化趋于0.此时每次采样的结果就一模一样了。相当于网络只拟合了一个，生成能力差。

所以为了提高生成能力要让 $\delta_i$ 尽量大，而为了让网络尽快收敛，又要让 $\delta_i$ 趋于0，这么就有了对抗。
最终，我们期望 $\delta_i$ 趋于1， $\mu_i$ 趋于0，即 $N(\mu_i,\delta_i) \approx N(0,1)$ .所以
$p(Z)=\int_X p(Z,X)\mathrm{d}X=\int_Xp(Z|X)p(X)\mathrm{d}X=\sum_Xp(Z|X)p(X)$ $=\sum_X N(0,1)p(X)=N(0,1)\sum_Xp(X)=N(0,1)$
上式表明，如果 $p(Z|x_i)=N(0,1)$ ，则 $p(Z)=N(0,1)$ .
编码过程实际上是将真实分布 $p(X)$ 映射到标准正态分布。

如何衡量 $p(Z|x_i)$ 与 $N(0,1)$ 之间的差异呢?采用KL散度：
$KL(p(Z|x_i)||N(0,1))=KL(N(\mu_i,\delta_i)||N(0,1))=\frac12 \sum_i(\mu_i^2+\delta_i^2-\log \delta_i^2-1)$

解码过程

从隐变量分布 $q(Z)$ 中采样 $z_i$ 。为了让编码过程和解码过程一致，则让 $q(Z)$ 和 $p(Z|x_i)$ 一样。在开始我们假设隐变量 $Z$ 服从某个常见的分布，方便采样。这里假设 $q(Z)=N(0,1)$ 。所以 $q(Z)=p(Z|x_i)=N(0,1)$ 。这就是为什么前面要让 $p(Z|x_i)$ 等于正态分布的原因。

之后，使用神经网络 $\hat x_i=g(z_i)$ : 将 $z_i$ 映射成 $\hat x_i$ 。神经网络 $g(Z)$ ，也可以表示为 $q(X|Z)$ 。所以有：
$q(X)=\int q(X,Z)\mathrm{d}z=\int q(X|Z)q(Z)\mathrm{d} z$
为了让 $\hat x_i \to x_i$ ，我们要求 $q(X) \to p(X)$

Loss

编码过程有 $p(Z,X)=p(Z|X)p(X)$ ，所以
$p(X)=\int p(X,Z)\mathrm{d}z=\int p(X|Z)p(Z)\mathrm{d}z$
解码过程有
$q(X)=\int q(X,Z)\mathrm{d}z=\int q(X|Z)q(Z)\mathrm{d} z$
有上面两个式子：当 $q(X,Z) \to p(X,Z)$ 时，有 $q(X) \to p(X)$
用KL散度衡量 $q(X,Z)$ 和 $p(X,Z)$ 之间的差异：
$KL(p(X,Z)||q(X,Z))=\int p(X)\left [\int p(Z|X) \ln \frac{p(X)p(Z|X)}{q(X,Z)} \mathrm{d} z\right] \mathrm{d} x$
$=\mathbb{E}_{x \sim p(X)} \left [ \mathbb{E}_{x \sim p(Z|X)} [- \ln q(X|Z)] +KL(p(Z|X)||q(Z)) \right]$

释疑

为啥是p和q

vae分为两个过程，编码过程和解码过程

编码过程有真实样本 $X$ 生成隐变量 $Z$ 。描述这个过程用联合分布 $p(X,Z)$ 来表达。
编码过程用条件分布表示 $p(Z|X)$ 。
真实样本 $X$ 的分布用边缘概率 $p(X,\cdot)$ 表示，其中 $p(X,\cdot)=\int p(X,Z) \mathrm{d} z$ 。文中简写为 $p(X)$
这就是为什么编码过程 $p(Z|X)$ 和真实样本 $X$ 的分布 $p(X)$ 都用 $p$ 表示

p(Z)和q(Z)

同样的，编码由联合概率 $p(X,Z)$ 表达，由 $X$ 生成隐变量的 $Z$ 的分布用 $p(Z)$ 表示。
而在解码中， $Z$ 在 $q(Z)$ 中采样得到，整个过程用 $q(Z,X)$ 描述。
这就是为什么 $Z$ 有两个分布的原因：一个是生成出来的属于 $p(Z)$ 分布，一个是设定好的属于 $q(Z)$ 分布。最终我们要让 $p(Z)$ 趋近于 $q(Z)$
同理可得 $p(X)$ 和 $q(X)$