AI Pix2Pix模型

前言

简介：伯克利大学研究提出的使用条件对抗网络作为图像到图像转换问题的通用解决方案。图像到图像转换的问题其实也就是像素到像素（Pix2Pix）的映射问题。

Github Demo：Pix2Pix

官网：Image-to-Image Translation with Conditional Adversarial Nets

论文：Image-to-Image Translation with Conditional Adversarial Networks

前阵子很出名的DeepNude：DeepNude-an-Image-to-Image-technology

原理介绍

GAN实现原理：GAN 在结构上受博弈论中的二人零和博弈 (即二人的利益之和为零，一方的所得正是另一方的所失) 的启发，系统由一个生成器和一个判别器构成。

名词	说明
GAN	生成对抗网络，Generative adversarial networks。
Generator	生成器，尽量去学习真实的数据分布。
Discriminator	判别器，尽量正确的判别输入数据是来自真实数据还是来自生成器。
训练结束标准	当最终 D 的判别能力提升到一定程度，并且无法正确判别数据来源时，可以认为这个生成器 G 已经学到了真实数据的分布。

价值函数表达

$V(G,D)=E_{x\sim p_{data}(x)}logD(x)+E_{z\sim p_{z}(z)}log(1-D(G(z)))$

参数	解析
$\underset{G}{min}\ \underset{D}{max}$	零和博弈
$D$	可微判别器函数
$G$	可微生成器函数
$E$	数学期望
$x\sim p_{data}$	$x$ 服从于真实数据 $data$ 的概率密度
$z\sim \ p_{z}(z)$	$z$ 服从于初始化数据的概率密度
$logD(x)$	正类的对数损失函数（正类：即能判别出x属于真实分布。）
$log(1-D(G(z)))$	负类的对数损失函数（正类：即能判别出x属于生成分布。）
$E_{x\sim p_{data}(x)}logD(x)$	根据正类的对数损失函数构建，取最大值则意味着令判别器 $D$ 在 $x$ 服从于 $data$ 的概率密度时能准确预测 $D(x)= 1$ ，即 $D(x)= 1 \ when \ x\sim p_{data}(x)$ 。
$E_{z\sim p_{z}(z)}log(1-D(G(z)))$	根据负类的对数损失函数构建，企图欺骗判别器的生成器。

零和博弈函数表达

根据上述的价值函数，可以提出零和博弈函数。

给定生成器 $G$ ，由价值函数可以推导出最优判别器的表述 $D_G^*$ 为：
$D_G^*=arg\ \underset{D}{max}V(G,D)$
当生成器 $D$ 达到最大值的时候，即最优的情况 $D=D_G^*$ 的时候，固定 $D$ ，开始训练 $G$ 。根据 $D_G^*$ 可以推导出最优生成器 $G$ ：
$G^*=\underset{G}{min} \ \underset{D}{max}V(G,D)=\mathbb{E}_{x\sim p_{data}(x)}logD(x)+\mathbb{E}_{z\sim p_{model}}log(1-D(G(z)))$
（备注： $\mathbb{E}$ 指的也是数学期望。）

最后，我们可以将最优生成器表达为：
$G^*=arg\ \underset{G}{min}V(G,D_G^*)$
当然，这仅仅是其中的一次优化的过程。这个过程会持续很多次，直到一个临界点才终止。

临界值推导

任意可微分的函数都可以用来表示 GAN 的生成器和判别器。——《生成式对抗网络GAN的研究进展与展望》

在 GAN 原论文中，有一个思想和其它很多方法都不同，即生成器 G 不需要满足可逆条件。

在极大极小博弈的第一步中，给定生成器 $G$ ，最大化 $V(D,G)$ 得到最优判别器 $D$ 。最大化 $V(D,G)$ 评估了 $P_G$ 和 $P_{data}$ 的数据差异。由于原论文中价值函数可写为在 $x$ 上的积分形式，即将数学期望展开为积分形式：
$V(G,D)=\int_{x} p_{data}(x)logD(x)+p_G(x)log(1-D(x))\ dx$

令 $p_{data}(x)=a$ ， $D(x)=y$ ， $p_G(x)=b$ 得：

$f(y)=a\ log\ y+b\ log(1-y)$
$f(x)$ 一阶导数：
$f'(x)=\frac{a}{y}-\frac{b}{1-y}=0$
由此可得：
$y=\frac{a}{a+b}$
$f(x)$ 二阶导数：
$f''(\frac{a}{a+b})=-\frac{a}{(\frac{a}{a+b})^2}-\frac{b}{(1-\frac{a}{a+b})^2}<0$
一阶导数为0有解，且二阶导数小于0，因此 $\frac{a}{a+b}$ 为极大值点。

因此，价值函数可以等价为：
$V(G,D)=\int_{x} \underset{y}{max}\ p_{data}(x)log\ y+p_G(x)log(1-y)\ dx$
因此，最优的生成器 $D_G^*$ 为：
$D_G^*=\frac{p_{data}}{p_{data}+p_G}=\frac{1}{2}$
这个时候判别器已经不能区分数据是否真实了，基于这个观点，GAN的作者也证明了 $G$ 就是极大极小博弈的解了。

训练过程

当寻找最优的生成器 $G$ 的时候，那么给定一个判别器 $D$ ，可以将 $\underset{G}{max}V(G,D)$ 看作训练生成器的损失函数 $L(G)$ ，有了损失函数，我们就可以使用 $SDG$ 、 $Adam$ 等优化算法更新生成器 $G$ 的参数，梯度下降的参数优化过程为：
$\theta_G \leftarrow \theta_G-\eta \frac{\partial L(G)}{\partial \theta_G}$

$\theta$ 表示输入参数。
详细推导可以看：
- 机器之心GitHub项目：GAN完整理论推导与实现，Perfect！
- GAN原理解析，公式推导与python实现

Pix2Pix

日前很火的DeepNude就是基于这个原理实现的。

普通GAN原理简介

普通的GAN：

Generator的输入Input是随机向量，输出的是图像；
Discriminator的输入Input是图像（生成的图像、真实的图像），输出是对或者错。

在不断的博弈的过程中，就可以相互增强，直到生成的图像使得判别器真假难辨为止。

cGAN原理介绍

cGAN，即Conditional GAN：

Generator的输入Input是图像和随机向量，输出的是图像；
Discriminator的输入Input是图像（生成的图像、真实的图像），输出是对或者错。

在不断的博弈的过程中，就可以相互增强，直到生成的图像使得判别器真假难辨为止。

换而言之：

传统GAN，从随机向量 $z$ 学到图像y： $G:z \rightarrow y$
cGAN，从输入图像 $x$ 和随机向量 $z$ 学到图像 $y$ ： $G:\{x,z\} \rightarrow y$

网络结构简介

[外链图片转存失败(img-grPhX9E0-1563462681704)(网络结构.png)]

生成器 $G$ 用到的是U-Net结构，输入的轮廓图 $x$ 编码再解码成真是图片，判别器 $D$ 用到的是作者自己提出来的条件判别器PatchGAN，判别器 $D$ 的作用是在轮廓图 $x$ 的条件下，对于生成的图片 $G(x)$ 判断为假，对于真实判断为真。

结构说明

由于 $L_1 \ Loss$ 和 $L_2\ Loss$ 可以较好的恢复图像的低频部分，GAN Loss可以较好的恢复图像的高频部分。

$L_{cGAN}(G,D)$
$L_{cGAN}(G,D)=\mathbb{E}_{x,y}[logD(x,y)]+\mathbb{E}_{x,z}[log(1- D(x, G(x,z)))]$
$L_1\ Loss$
$L_{L1}(G)=\mathbb{E}_{x,y,z}[||y-G(x,z)||_1]$
因此，作者采用了两者相结合的方式，目标函数可以表达为：
$G^*=arg\ \underset{G}{min} \underset{D}{max}L_{cGAN}(G,D)+\lambda L_{L1}(G)$
效果如下图（梯度下降使用SGD和Adam）：

[外链图片转存失败(img-anMvmEJ2-1563462681708)(loss_example.png)]

$L_1 \ Loss$ 和 $L_2\ Loss$

名称	损失函数	导数
$L_1 \ Loss$	$\vert f(x) -Y \vert$	$\pm f'(x)$
$L_2 \ Loss$	$\vert f(x) -Y \vert ^2$	$2(f(x)-Y)f'(x)$

AI Pix2Pix模型

损失函数对于色彩的影响

AI Pix2Pix模型可以看出， $L_1$ 对颜色的感受野比较小，因此生成的图像的颜色范围没那么丰富。

U-Net

U-net采用了完全不同的特征融合方式：拼接，U-net采用将特征在 $Channel$ 维度拼接在一起，形成更厚的特征。
AI Pix2Pix模型

Skip-Connect

使用Skip-Connect可以解决梯度消失的问题。
AI Pix2Pix模型

U-Net的作用

AI Pix2Pix模型
U-Net中使用了skip-connection，大大提高了生成后的图像质量。

PatchGAN

用 $L_1 \ Loss$ 和 $L_2 \ Loss$ 重建的图像很模糊，也就是说 $L_1$ 和 $L_2$ 并不能很好的恢复图像的高频部分(图像中的边缘等)，但能较好地恢复图像的低频部分(图像中的色块)。为了能更好得对图像的局部做判断，作者提出PatchGAN的结构，也就是说把图像等分成Patch，分别判断每个Patch的真假，最后再取平均！作者最后说，文章提出的这个PatchGAN可以看成所以另一种形式的纹理损失或样式损失。在具体实验时，不同尺寸的Patch，最后发现70x70的尺寸比较合适。

AI Pix2Pix模型这里其实也可以解释为什么 $arg\ \underset{G}{min}\ \underset{D}{max}$ 的 $arg$ 是怎么得来的了。其实就是因为PatchGAN最后得出来的结果需要求均值。

效果

AI Pix2Pix模型

展望

Pix2Pix本身也有一定的局限性，论文作者承认，这种结构其实学到的是 $x$ 到 $y$ 之间的一一对应，Pix2Pix就是对Ground Truth的重建。输入轮廓图→经过U-Net编码解码成对应的向量→解码成真实图。

这种一对一映射的应用范围十分有限，当我们输入的数据与训练集中的数据差距较大时，生成的结果很可能就没有意义，这就要求我们的数据集中要尽量涵盖各种类型。

AI Pix2Pix模型

当我们输入训练集中不存在的轮廓图时，得到以下：

AI Pix2Pix模型

我们可以看出，服装的形态还是可以保持的，但是生成图像的颜色并不能令人满意。

前言