论文译文《ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORKS》

0 ABSTRACT

许多异常检测方法都能很好地处理低维问题，但是对于高维空间，比如图像，却显然缺乏有效的方法。受到最近深度学习成功的启发，我们提出了一种利用生成对抗性网络的新方法来实现异常检测。给定一个正在考虑的样本，我们的方法是基于在生成器的潜在空间中寻找该样本的一个好的表示; 如果没有找到这样的表示，该样本被视为异常。我们在标准图像基准数据集上实现了最先进的性能，并且对最不规则的样本进行了目视检查，结果表明我们的方法确实返回了异常。
1 INTRODUCTION

对于一个数据集合，通常需要自动确定它的哪些实例是不寻常的。通常被称为异常检测，这是一个基本的机器学习任务，在许多领域都有应用，如天文学(Protopapas et al. ，2006; Dutta et al. ，2007) ，医学(Campbell and Bennett，2001; Wong et al. ，2003; Schlegl et al. ，2017) ，故障检测(Gornitz et al. ，2015) ，以及入侵检测(Eskin，2000; Hu et al. ，2003)。传统的算法在处理高维数据(如图像或语音)时，往往偏重于低维区域，面临困难。其次，他们需要特性的手工工程。
深度学习省略了手工特性工程，已经成为解决许多高维机器学习任务的实际方法。后者在很大程度上证明了它的实验性能: 深度学习帮助图像分类取得了令人印象深刻的成果(Krizhevsky 等人，2012年) ，并且在自然语言处理(Le and Mikolov，2014; sutskiver 等人，2014年)和语音识别(Bahdanau 等人，2015年)等领域设立了新的标准。在这篇论文中，我们提出了一种新颖的基于深度学习的方法，它使用了生成对抗性网络(GANs)(Goodfellow et al. ，2014)。广域网在高维生成建模方面取得了最先进的性能。在一个 GAN 中，两个神经网络——鉴别器和生成器——互相对立。在这个过程中，生成器学习将随机样本从低维映射到高维，模仿目标数据集。如果生成器已经成功地学到了训练数据分布的一个很好的近似值，那么就可以合理地假设，对于从数据分布中抽取的样本，在 GAN 的潜在空间中存在一些点，在通过生成器网络之后，这些点应该与这个样本非常相似。我们使用这些通信来执行与 GANs (ADGAN)的异常检测。在第二部分，我们概述了之前关于异常检测的工作，并讨论了本文的建模假设。第3部分包含对我们提出的算法的描述。在我们的实验中，见第4节，我们都验证了我们的方法对传统的方法和展示 ADGAN 的能力，检测异常的高维数据。
2 BACKGROUND

在这里，我们简要回顾了之前关于异常检测模型的工作，介绍了生成模型，并重点介绍了广域局域网的方法。
2.1 RELATED WORK

异常检测。关于异常检测的研究有着悠久的历史，早期的工作可以追溯到 Edgeworth (1887) ，并且关注于在数据库中发现不寻常或不规则的样本。一个广泛的概述传统的异常检测方法以及开放的挑战可以在 Chandola 等人(2009年)。有关各种现有方法的最新实证比较，请参见 Emmott et al. (2013)。通过对数据分布 p 的估计，生成模型产生了一系列的异常检测器。这个指导方针大致遵循传统的非参数方法，如核密度估计方法(KDE)(Parzen，1962) ，这些方法在 Yeung 和 Chow (2002)中被应用于入侵检测。其他研究针对异常主动学习的高斯混合模型(Pelleg 和 Moore，2005年) ，记录网络攻击的隐马尔可夫模型(Ourston 等人，2003年) ，以及用于交通事件检测的动态贝叶斯网络(Singliar 和 Hauskrecht，2006年)。深层生成模型。最近，变分自动编码器(VAEs)(Kingma 和 Welling，2013)被提出作为一个深度生成模型。通过对数据可能性的变化下界进行优化，神经网络的参数可以进行调整，使得类似于数据的样本可以从高斯先验中产生。另一种生成方法是在一个自动编码器设置(DCAE)中训练一对深度卷积神经网络(Masci et al. 2011) ，并通过对压缩流形上的随机点进行解码来生成样本。不幸的是，这些方法都没有产生一种易于处理的 p 估计方法。我们的方法使用了一个深刻的生成模型在异常检测的背景下。
异常检测的深度学习。非参数异常检测方法受制于维数灾难模型，因此不足以解释和分析高维数据。深层神经网络已经被发现可以避免在这种情况下出现的许多问题。作为两种方法的混合，深度信念网络与一类支持向量机耦合来检测 Erfani 等人(2016)的异常。我们发现这种技术在图像数据集上并不能很好地工作，而且实际上作者们在他们的论文中并没有包含这样的实验。
类似地，一个人可以使用一个网络，这个网络被预先训练用于不同的任务(例如在 ImageNet 上进行分类) ，然后使用这个网络的中间特征从图像中提取相关信息。我们在实验部分测试了这种方法。
最近，由于性能超过了以前的深层生成方法，我们将在下一节更深入地讨论 GANs。与此同时，Schlegl 等人(2017)开发了一个使用 GANs 的异常检测框架，和我们的做法类似。
我们在第3.2节中讨论了我们的工作与他们的工作之间的区别。
2.2 GENERATIVE ADVERSARIAL NETWORKS

论文译文《ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORKS》

图1: ADGAN 的例子。在这个例子中，MNIST 的例子被认为是正常的。
从 pz 初始绘制后，计算第一代 g0(z0)和我们正在评估的图像 x 之间的损失。这个信息用来产生一个连续的图像 g1(z1)更像 x。经过 k 步后，对样品进行评分。如果 x 类似于训练数据(蓝色示例) ，那么类似的对象应该包含在 gk 的图像中。对于一个不同的 x (红色的例子) ，没有类似的图像被发现，导致一个大的损失。

甘斯位于 ADGAN 的心脏地带，在生成图像建模方面创造了一种新的最先进的技术。它们提供了一个生成样本的框架，近似地分布到 p，分布的训练数据{ xi } n i 1，x something r d，为了实现这一点，GANs 试图学习一个神经网络的参数化，所谓的生成器 g，映射从一些简单的噪声之前的 pz (如多元高斯)的低维样本到图像空间的样本，从而诱导分布 q (推进的 pz 相对于 g) ，近似于 p。
为了实现这一点，第二个神经网络，鉴别器 d，学习分类的数据从 p 和 q。通过交替训练，鉴别器能更好地从 p 中分离样本和从 q 中分离样本，而生成器则调整以欺骗鉴别器，从而更接近 p。因此，应用组织框架的目标功能是:

论文译文《ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORKS》

一项最近的研究表明，z 是位于维度空间 d0 d 的向量这个最小极大值优化(1)等于一个 f- 散度的经验下界(Nowozin)2016)2

Gan 的训练在实践中很困难，这已被证明是高维空间中渐变消失的结果(Arjovsky 和 Bottou，2017年)。这些不稳定性可以通过积分概率度量(IPMs)的训练来克服(Muller，1997; Sriperumbudur 等人，2009) ，其中一个例子是1-Wasserstein 距离。广域网的目标函数是

论文译文《ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORKS》

其中鉴别器的参数化被限制为只允许1- lipschitz 函数，即{ : kd kl ≤1}。与传统的广域网相比，我们观察到 WGAN 训练是非常稳定的，因此在我们的实验中使用，见第4节。
3 ALGORITHM

我们提出的方法(ADGAN，参见 Alg。 1)在氮化镓培训融合后开始。如果生成器确实捕获了训练数据的分布，那么，给定一个新的样本 x ∼∼ p，在潜变空间中应该存在一个点 z，这样 g (z)≈ x。此外，我们期望远离 p 的支持点在潜空间中没有表示，或者至少占据潜分布中概率质量的一小部分，因为它们很容易被 d 识别为不来自 p。
我们的算法基于这个假设，如图1所示。
论文译文《ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORKS》

3.1 ADGAN

为了找到 z，我们从 z0∼∼ pz 初始化，其中 pz 是相同的噪音优先也用于 GAN 训练。对于 l1，... ，k 步骤，我们在 g (zl)和 x 之间反向传播重构损失，使后续生成的 g (zl + 1)更像 x。在每次迭代中，我们还允许生成器的参数化有一定的灵活性，从而导致了一系列的映射从潜在空间 g0(z0) ，... ，gk (zk) ，越来越接近 x。调整给生成器额外的代表容量，我们发现这样可以提高算法的性能。请注意，这些调整不属于氮化镓培训程序的一部分，每个新的测试点都被重置回原来的培训值。
为了限制在不适合的区域播种的风险，并解决底层最佳化问题的非凸特性，搜索从 nseed 单个点初始化。 Adgan 背后的关键思想是，如果生成器是按照同样的分布来训练的，那么最终重建损失集{‘(x，g j，k (zj，k))}的平均值将假定为低值，否则为高值。
我们的方法也可以从生成器近似反演的观点来理解。
从这个意义上说，上面的反向传播算法找到了接近 g-1(x)的潜在向量 z。生成器的反演在 Creswell 和 Bharath (2016)之前进行过研究，在那里实验证实了这项任务可以高保真地进行。此外，Lipton 和 Tripathi (2017)表明，通过反向传播可以成功地恢复生成的图像通过潜在空间。作者发现，完全不用鉴别器来训练发生器是可能的，仍然可以得到一个包含许多广域网理想特性的模型，例如样本之间的平滑插值。
3.2 ALTERNATIVE APPROACHES

鉴于氮化镓的培训还给我们提供了一个鉴别真假样本的鉴别器，人们可以合理地考虑直接应用鉴别器检测异常。然而，一旦聚合，鉴别器利用象棋盘一样的人工制品在像素级别，由生成器结构诱导(Odena 等人，2016年; Lopez-Paz 和 Oquab，2017年)。虽然它能够完美地区分真实数据和伪造数据，但是它不具备处理与训练数据完全不同的样本的能力。这种推理方式在第4节的实验中得到了验证。
我们考虑的另一种方法是评估最终潜在向量{ zj，k } nseed j 1在噪声先于 pz 的情况下的可能性。这种方法在第4节中进行了实验测试，虽然它显示了一些希望，但它始终优于 ADGAN。
在 Schlegl 等人(2017年)中，作者提出了一种针对异常检测的技术(称为 AnoGAN) ，这种技术在某种程度上类似于我们提出的算法。他们的算法也是从训练 GAN 开始的。与我们的方法类似，给定一个测试点 x，他们的算法搜索潜在空间中的一个点 z，使得 g (z)≈ x 并计算重建损失。此外，他们使用中间鉴别器层 d0并计算 d0(g (z))和 d0(x)之间的损失。他们使用这两个量的一个凸组合作为他们的异常值。
在 ADGAN，我们从不使用鉴别器，因为训练后就会丢弃它。这使得将 ADGAN 与任何基于 gan 的方法(例如 LSGAN (Mao 等人，2016)结合起来变得容易，但也可以与任何其他可微生成器网络结合起来，例如 VAEs 或矩匹配网络(Li 等人，2015)。此外，我们通过在潜在空间中从多个区域播种来解释底层优化的非凸性。最后，在推理过程中，我们不仅更新了潜在向量 z，而且联合更新了生成器的参数化

4 EXPERIMENTS

在这里，我们提出了 ADGAN 疗效的实验证据。我们比较了我们的算法和竞争方法在一个受控的，分类类型的任务和显示异常样本从流行的图像数据集。我们的主要调查结果是:

•在两个可获得地面真相信息的对照实验中，表现优于非参数方法和可用的深度学习方法;

•可用于大型非监督数据(如 LSUN bedrooms) ，以检测与我们人类认为不寻常的事件相吻合的异常样本。

4.1 DATASETS

我们的实验是在三个不同复杂度的基准数据集上进行的: (i)包含手写数字灰度扫描的 MNIST (LeCun，1998)。 (ii) Cifar-10(Krizhevsky 和 Hinton，2009年) ，其中包含属于十个类别的真实世界物体的彩色图像。 (iii) Lsun (Xiao et al. ，2010) ，一个显示不同场景(如卧室、桥梁或会议室)的图像数据集。对于所有数据集，训练和测试拆分仍然是它们的默认值。此外，对所有图像进行重新标度以假定[-1,1]中的像素值。
4.2 METHODS AND HYPERPARAMETERS

我们测试了 ADGAN 的性能对3个传统的，非参数的方法通常使用的异常检测: (i) KDE 与高斯核(Parzen，1962年)。带宽由十次交叉验证的最大似然估计确定，h ∈{20,21 / 2，... ，24}。 (ii) 一类带有高斯核的支持向量机分类器(OC-SVM)(Scholkopf et al. ，1999)。反长度尺度选自对1000个样本的小抵抗集的性能估计，并且∈{2-7,2-6，... ，2-1}。 (iii) 隔离森林(IF) ，对参数化的变化具有较好的稳定性。 (iv) 高斯混合模型。我们允许组件的数量在{2,3，... ，20}上变化，并通过评估贝斯信息量准则参数来选择合适的超参数。
对于上面的方法，我们在执行异常检测之前降低了特征维度。
这是通过 PCA (Pearson，1901)完成的，在{20,40，... ，100}之上改变维度; 我们只是简单地报告在一个小抵抗集上达到最佳性能的结果。作为线性投影的替代方案，我们通过 Alexnet 对图像数据进行非线性变换(Krizhevsky 等人，2012) ，对 Imagenet (Deng 等人，2009)进行预训练，评估了两种方法的性能。就像在图像上一样，异常检测是在 Alexnet 最后的卷积层上进行的。然后通过 PCA 向下投影这个表示，否则 KDE 和 OC-SVM 的运行时就会出现问题。
我们还报告了两种端到端的深度学习方法的性能: VAEs 和 DCAEs。
对于 DCAE，我们根据重建损失得分，将高损失解释为新样本与训练中看到的样本不同的指示。在 VAEs 中，我们通过评估证据的下界(ELBO)得分。我们发现这种方法比直接通过潜在空间的先验似然法或其他更奇异的方法(如根据推理网络的方差进行评分)进行阈值分割要好得多。
在 DCAEs 和 VAEs 中，我们使用类似于 DCGAN 的卷积结构(Radford 等人，2015年) ，在每一层都有批量规范化(Ioffe 和 Szegedy，2015年)和 ReLU **。我们还报告了氮化镓的性能。为了平等对待它，我们将它与 DCGAN (Radford 等人，2015)配对，在我们的方法中，同样的架构也用于培训。
Adgan 需要一个训练有素的发电机。为此，我们针对 WGAN 目标(2)进行了培训，因为这比使用 GANs 稳定得多。这种架构是固定在 DCGAN 的架构上的(Radford 等人，2015)。在 Metz 等人(2016)之后，我们将潜在空间的维数设置为 d0256。对于 ADGAN 来说，潜在空间中的搜索在 GAN 接受训练之前从相同的噪音初始化(在我们的情况下是正态分布)。考虑到这个问题的不凸性，我们从8个点开始搜索。对于潜在向量和生成器参数的优化，我们使用了 Adam 优化器(Kingma 和 Ba，2014)。5当搜索潜在空间中的一个点来匹配测试点时，我们发现更多的优化步骤总是能够提高我们实验中的性能。我们发现 k 5步骤在执行时间和准确性之间是一个很好的权衡，并在我们报告的结果中使用这个值。除非另有说明，我们测量重建质量的平方 L2损失。
4.3 ONE-VERSUS-ALL CLASSIFICATION

第一个任务旨在量化竞争方法的性能。在这篇文章中，我们密切关注 OC-SVMs (Scholkopf et al. ，1999)的原始出版物，并从 MNIST 的单一类别的数据开始训练每个模型。然后，我们从测试集中随机抽取5000个项目来评估性能，这些项目包含来自所有类别的样本。在每一次试验中，我们都把训练中未见过的类别标记为异常。
理想情况下，一个方法从异常类别(比如，数字1-9)分配图像比属于正常类别(零)的图像有更高的异常得分。如图2所示，改变决策阈值会产生 ROC曲线(ROC)。在表1和表2中，我们报告了由于省略了每个类而导致的 AUCs。第二个实验遵循这一准则，使用来自 CIFAR-10的彩色图像。在这些对照实验中，我们强调了 ADGAN 在推断低维样本(如 MNIST 中所包含的样本)异常方面与传统方法不相上下的能力。在 CIFAR-10上，我们看到所有测试方法的性能都有所下降。在这些实验中，ADGAN 表现最好，需要八粒种子才能达到这个结果。使用一个预先训练的 Alexnet 非线性转换没有改善 MNIST 或 CIFAR10的性能，见表1。虽然两个表都没有显式地包含使用 GAN 判别器对样本进行评分的结果，但是我们对两个数据集都进行了这些实验。性能较差，MNIST 的平均 AUC 为0.625，CIFAR-10的平均 AUC 为0.513。根据最终潜在向量的先验似然 pz 评分效果稍好，结果 MNIST 的平均 AUC 为0.721，CIFAR-10的平均 AUC 为0.554。
4.4 UNSUPERVISED ANOMALY DETECTION

在第二项任务中，我们展示了在没有基本真相信息的实际环境中使用 ADGAN 的情况。为此，我们首先在 LSUN 场景上训练了一个发电机。然后，我们使用 ADGAN 在相应的验证集中找到包含300张图像的最不规则图像。6与最高和最低异常得分相关的图像如图3和图4所示。值得注意的是，本实验研究的训练集大小禁止使用非参数方法，如 KDE 和 OC-SVMs。
从视觉检测标记为异常的 LSUN 场景可以看出，该方法具有从异常样本中区分常规样本的能力。我们推断 ADGAN 能够结合图像的许多属性。它不仅考虑颜色，还考虑显示的几何图形是否是规范的，或者图像是否包含外部对象(如标题)。与此相反，被分配到低异常分数的样本符合班级的理想状态。它们显示的是纯色，没有异物，是从传统的角度拍摄的。在卧室的情况下，一些最不寻常的样本字面上只是一个房间里的床。
附录中收集了应用我们的方法检索到的其他图像，以及 CIFAR-10和其他 LSUN 场景。
5 CONCLUSION

我们展示了搜索生成器的潜在空间可以在异常检测任务中使用。为此，我们提出的方法是: (i)在标准图像基准数据集上提供最先进的性能; (ii) 可以用来扫描大量未标记图像的不规则样本。
据我们所知，我们还报道了使用 VAEs 治疗异常检测的初步结果。
我们仍然乐观地认为，通过额外调整底层神经网络结构或者通知潜在优先级的替换，可以提高其性能。
通过联合优化潜在向量和生成器参量化来解释不适当的初始化是帮助 ADGAN 获得强大实验性能的关键因素。尽管如此，我们仍然相信，诸如从 ALI 中生成器的近似倒置初始化(Donahue 等人，2016; Dumoulin 等人，2016) ，或者用重建损失代替更精细的变量，如拉普拉斯金字塔损失(Ling 和 Okada，2006) ，可以用来进一步改进我们的方法。

论文译文《ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORKS》