[CVPR2020]Adversarial Latent Autoencoders论文翻译及阅读笔记

论文原文地址：Adversarial Latent Autoencoders

摘要

自动编码器网络是一种无监督的方法，目的是通过同时学习编码器-生成器映射来结合生成和表示特性。虽然研究广泛，但它们是否具有GANS相同的生成能力，或学习分离的表示，尚未得到充分解决。 我们介绍了一种自动编码器，它共同处理这些问题，我们称之为对抗性潜在自动编码器(ALAE)。 这是一个通用的架构，可以利用最近对GAN培训程序的改进。我们设计了两个自动编码器：一个基于MLP编码器，另一个基于styleGAN生成器，我们称之为styleALAE。我们验证了这两种体系结构的区别属性。我们表明，StyleALAE不仅可以生成1024×1024张具有类似StyleGAN质量的人脸图像，而且在相同的分辨率下还可以产生基于真实图像的人脸重建和操作。这使得ALAE成为第一个能够与生成器类型的体系结构进行比较和超越的自动编码器。

引言

生成对抗性网络(GAN)[13]已成为计算机视觉及其以外的主要无监督方法之一。它们的强度与它们表示复杂概率分布的显著能力有关，如人脸流形[33]或卧室图像流形[53]，它们通过学习从已知分布到数据空间的生成器映射来完成。同样重要的是，旨在学习编码器地图从数据到潜在空间的方法。它们允许以有监督的[29,46,40,14,52]或无监督的[37,58,19,25,4,3]方式学习手头任务的数据的适当表示。
自动编码器(A E)[28,41]网络是一种无监督的方法，旨在通过同时学习编码器-生成器映射来结合“生成”以及“表示”属性。 AE结构的研究的一般性问题是它们是否可以：
- (A)具有与GANS相同的生成能力；
- (B)[1]解离化表示。
几项工作涉及(a)[35,31,6,9,20]。成功的一个重要的测试平台是AE产生像GAN[23]所产生的那样丰富和锐利的面部图像的能力。已取得进展，但尚未宣布胜利。大量的工作也涉及(b)[19,25,10]，但不与(a)一起)。
我们介绍了一种通用的AE体系结构，它具有与GANs相当的生成能力，同时学习了一种较少纠缠的表示。我们观察到，每种AE方法都有相同的假设：潜在空间应该有一个先验固定的概率分布，并且自动编码器应该与之匹配。另一方面，用GANs合成图像生成的最新技术[24]表明，一个中间的潜在空间，远远远离强加的输入空间，倾向于改善离散特性。
上述观察启发了拟议的方法。我们设计了一个AE体系结构，允许从数据中学习潜在分布以解决纠缠(A)。用对抗性策略(B)学习输出数据分布)。因此，我们保留了GANs的生成特性，以及在这一领域最近进展的基础上建立起来的能力。例如，我们可以无缝地包含独立的随机性源，这对于生成图像细节是必不可少的，或者可以利用最近对GaN损失函数、正则化和超参数调优[2,30,38,34,36,3]的改进。最后，为了实现(A)和(B)，我们在潜在空间©中施加AE互易)。因此，我们可以避免使用基于简单L2范数的重建损失，这些损失在数据空间中工作，在那里它们往往是次优的，就像图像空间一样。我们认为(A)、(B)和©的独特组合是该方法的主要技术新颖性和优势。由于它在潜在空间上工作，而不是自动编码数据空间，我们将其命名为对抗性潜在自动编码器(ALAE)。
我们设计了两个ALAE，一个用多层感知器(MLP)作为对称发生器的编码器，另一个来自styleGAN[24]的生成器，我们称为styleALAE。为此，我们设计了一个配套编码器和一个逐步增长的体系结构。我们定性和定量地验证了这两种体系结构都学习到了一个比强加的更解缠的潜在空间。此外，我们还展示了面部和卧室图像生成的定性和定量结果，这些结果与风格GAN在1024×1024的最高分辨率下相当。由于styleALAE也学习编码器网络，我们能够以最高的分辨率显示，人脸重建以及基于真实图像的几个图像操作，而不是随后生成。

结论

我们介绍了ALAE，一种新的自动编码器体系结构，它简单、灵活和通用，正如我们所展示，与两个非常不同的骨干生成编码器网络有效。与以前的工作不同，它允许学习潜在空间的概率分布，当数据分布是在对抗性设置中学习时。我们的实验证实，这使得学习表示可能不那么纠缠。这允许我们将StyleGAN扩展到StyleALAE，这是第一个能够单独使用SyleGAN生成和操作图像的自动编码器，同时保持相同级别的视觉细节。