Facial Landmark Detection: a Literature Survey

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文链接:Facial Landmark Detection: a Literature Survey
作者及团队：Yue Wu & Qiang Ji
会议及时间： Arxiv 201805
code:

文章目录

Abstract

1.Introduction
2 Holistic methods

2.1 Active Appearance Model

8. Databases and evaluations

8.1 Landmark annotations
8.2 Databases

8.2.1 Databases under “controlled” conditions
8.2.2 “In-the-wild” databases

8.3 Evaluation and discussion

8.3.1 Evaluation criteria
8.3.2 Evaluation of existing algorithms

8.4 Software

9. Conclusion

Abstract

基准面部界标点在面部组件和面部轮廓周围的位置捕获由于头部运动和面部表情而导致的刚性和非刚性面部变形。因此，它们对于各种面部分析任务很重要。多年来，已经开发了许多面部标志检测算法来自动检测这些关键点，在本文中，我们对它们进行了广泛的回顾。我们将面部界标检测算法分为三大类：整体方法，约束局部模型（CLM）方法和基于回归的方法。它们在利用面部外观和形状信息的方式方面有所不同。整体方法显式构建模型以表示全局面部外观和形状信息.CLM显式利用全局形状模型但构建局部外观模型。基于回归的方法隐式捕获面部形状和外观信息。对于每个类别中的算法，我们讨论它们的基础理论及其差异。在不同的面部表情，头部姿势和遮挡下，我们还比较了它们在对照和野生基准数据集上的表现。基于评估，我们指出了它们各自的优缺点。还有一个单独的部分，回顾了最新的基于深度学习的算法。

该调查还包括基准数据库和现有软件的列表。最后，我们确定未来的研究方向，包括组合不同类别的方法以利用其各自的优势来解决“野外”地标检测。

1.Introduction

人脸在视觉传达中起着重要作用。通过观察人脸，人可以自动提取许多非语言信息，例如人的身份，意图和情感。在计算机视觉中，要自动提取这些面部信息，基准面部关键点的定位（图1）通常是关键步骤，并且许多面部分析方法都是基于对这些标志性点的准确检测而建立的。例如，面部表情识别[68]和头部姿势估计算法[66]可能严重依赖于地标位置提供的面部形状信息。眼睛周围的面部标志点可以提供瞳孔中心位置的初始猜测，以进行眼睛检测和注视跟踪[41]。对于面部识别，通常将2D图像上的界标位置与3D头部模型结合起来以“正面化”面部，并有助于减少主体内部的明显变化，从而提高识别准确性[92]。通过面部界标位置获得的面部信息可以提供重要的信息用于人机交互，娱乐，安全监视和医疗应用的信息。
Facial Landmark Detection: a Literature Survey
面部界标检测算法旨在自动识别面部关键界标点在面部图像或视频上的位置。这些关键点或者是描述面部分量的唯一位置的主要点（例如眼角），或者是将这些主要点围绕面部分量和面部轮廓连接的内插点。形式上，给定一个表示为I的面部图像，界标检测算法会预测D个界标x = {x1，y1，x2，y2，…，xD，yD}的位置，其中x和y表示图像的面部标志坐标。

面部标志物检测具有挑战性，原因有几个。首先，在不同的面部表情和头部姿势下，受试者的面部外观发生显着变化。其次，诸如照明的环境条件会影响面部图像在面部图像上的外观。第三，由于其他物体遮挡面部或由于极端的头部姿势导致的自我遮挡会导致面部信息不完整。

在过去的几十年中，人脸界标检测算法取得了长足的发展。早期的工作重点是在没有上述人脸变化的情况下，挑战性较小的人脸图像。后来，人脸界标检测算法旨在处理某些类别中的多种变化，通常在“受控”条件下收集面部图像。例如，在“受控”条件下，面部姿势和面部表情只能属于某些类别。最近，研究集中在具有挑战性的“野外”条件下，其中面部图像可以进行任意面部表情，头部姿势，照明，面部遮挡等。总的来说，仍然缺乏可靠的方法可以处理所有这些变化。

面部界标检测算法可分为三大类：整体方法，约束局部模型（CLM）方法和基于回归的方法，具体取决于它们如何对面部外观和面部形状图案进行建模。面部外观是指面部界标周围或整个面部区域中独特的像素强度图案，而面部形状图案是指由界标位置及其空间关系定义的面部形状的图案。如表1所示，整体方法可对整体面部外观和整体面部形状模式进行显式建模。
Facial Landmark Detection: a Literature Survey
CLM依赖于显式的局部面部外观和显式的整体面部形状图案。基于回归的方法使用整体或局部外观信息，并且它们可以隐式嵌入全局面部形状图案以进行联合界标检测。通常，基于回归的方法最近表现出更好的性能（详细信息将在后面讨论）。请注意，一些最近的方法将深度学习模型和全局3D形状模型结合在一起进行检测，它们不在三大类的范围之内，将在4.3节中详细讨论。

本文的其余部分安排如下。在第2、3和4节中，我们讨论了三个主要类别的方法：整体方法，约束局部模型方法和基于回归的方法。第4.3节专门介绍基于深度学习的最新方法。在第5节中，我们讨论三个主要类别中方法之间的关系。在第6节中，我们讨论了“野外”条件下现有算法的局限性以及一些专门设计用于应对这些挑战的高级算法。在第7节中，我们讨论了相关主题，例如面部检测，面部界标跟踪和3D面部界标检测。在第8节中，我们讨论了面部界标注释，流行的面部界标检测数据库，软件以及领先算法的评估。最后，我们在第9节中总结了本文，指出了未来的方向。

2 Holistic methods

整体方法显式地利用整体面部外观信息以及全局面部形状图案进行面部界标检测（图2）。在下文中，我们首先介绍经典的整体方法：the Active Appearance Model（AAM）[18]。然后，我们介绍它的几个扩展。
Facial Landmark Detection: a Literature Survey

2.1 Active Appearance Model

Facial Landmark Detection: a Literature Survey

8. Databases and evaluations

8.1 Landmark annotations

面部地标注释是指面部图像上地面真实面部地标位置的手动注释。面部界标通常有两种类型：面部关键点和插值界标。面部关键点是面部的主要界标，例如眼角，鼻尖，嘴角等。它们具有独特的局部外观/形状图案。插值的界标点描述面部轮廓或连接关键点（图14）。在早期研究中，仅注释和检测了稀疏的关键地标点（图14（a））。最近，在新数据库中注释了更多点（图14（b）（c））。例如，在BioID中，标注了20个地标，而ibug和Heledominantn数据库中分别标注了68和194个地标。
Facial Landmark Detection: a Literature Survey
现有的地标注释存在一些问题。首先，界标注释本身就存在偏差，并且在各个数据库中都不一致，因此，很难合并多个数据库进行评估。各个地标注释也存在注释不一致。例如，对于眼角的注释，一些数据库倾向于在眼睛区域内提供注释，而另一些数据库则可能对眼睛区域外部的点进行注释。为解决这一问题，在[89]中，提出了一种方法来组合数据库通过将地标注释从源数据库传输到目标数据库来生成地标注释的并集。

第二个问题是手动注释是一个耗时的过程。有一些作品可以改善注释过程。在[30]中，使用3D面部扫描和投影模型来生成合成的2D面部界标和相应的界标注释。然后，将合成图像与真实图像进行组合以训练面部界标检测器。在[80]中，提出了一种迭代的半自动地标标注方法。最初使用少量训练数据对面部界标检测器进行训练，然后将其用于拟合新的测试图像，这些图像由用户选择以重新训练检测器。同样，在[93]中，提出了一种半监督人脸标志标注方法。即使前述方法改进了面部界标注释过程，该注释仍然是耗时且昂贵的。总体而言，现有的训练图像和数据库对于某些界标检测算法（例如基于深度学习的方法）可能仍然不够。最后，为了将注释扩展到大型数据集，在线众包（例如Amazon Mechanical Turk）可能是面部地标注释的一种潜在方法。

8.2 Databases

有两种类型的数据库：在“受控”条件下收集的数据库或具有“野外”图像的数据库。汇总请参见表3。
Facial Landmark Detection: a Literature Survey

8.2.1 Databases under “controlled” conditions

在“受控”条件下的数据库是指具有在室内采集的具有一定限制（例如，预定义的表情，头部姿势等）的视频/图像的数据库。

BioID [1]：数据集包含来自23个对象的1521幅灰度室内图像，分辨率为384×286。图像是在不同的照明和背景下拍摄的。受试者可能表现出中等的表达差异。它包含20点的地标注释。
AR [60]：该集合包含126人的4,000张正面彩色图像，这些图像带有表情，照明和面部遮挡（例如太阳镜和围巾）。提供了22个地标注释[2]。
扩展YaleB[31]：扩展的Yale人脸数据库B包含在9个姿势和64个光照条件下的28个对象的16,128张图像。该数据库提供原始图像，裁剪的面部图像和三个带注释的地标。
FERET[74]：面部识别技术（FERET）数据库包含14,051个灰度面部图像，涵盖了大约20个不同的偏航姿势的头部姿势。正面也有照明和面部表情变化。[106]提供了所选轮廓面上的11个地标。
CK / CK + [51][59]：科恩·卡纳德（Cohn-Kanade）AU编码表情数据库（CK）包含来自97+位受试者的正面（包括快乐，惊讶，悲伤）6种基本表情的486张视频（CK+ 593），厌恶，恐惧和愤怒。视频从神经表达开始，然后到达顶点。 CK +是CK数据库的扩展版本。它包括姿势和自发表达。数据库提供AAM标志性跟踪结果。
Multi-PIE人脸数据库[39]：Multi-PIE人脸数据库包含337个对象的超过750,000张图像。面部图像是在15个视点和19个照明条件下拍摄的。包括一些面部表情，例如中性，微笑，惊奇，斜眼，厌恶和尖叫。根据头部姿势，可标注68或39个面部标志。
XM2VTSDB [64]：扩展M2VTS数据库包含295个带有语音和旋转头移动的主题的视频。还提供每个主题的3D头部模型。[79]提供了68个面部标志性注释。
FRGC v2[73]：面部识别大挑战（FRGC）数据库包含来自4,003个主题课程的50,000张面部图像，这些主题具有不同的照明条件和两种面部表情（微笑和中性）。还提供了由特殊传感器（Minolta Vivid 900/910）采集的3D图像，包括范围图像和纹理图像。 [79]在所选图像上提供了68个面部界标注释。
BU-4DFE[114]：宾厄姆顿大学4D面部表情数据库（BU-4DFE）包含用于六种原型面部表情（例如，愤怒，厌恶，幸福，恐惧，悲伤和悲伤）的2D和3D视频。来自101位受试者（58位女性和43位男性）的惊喜）。大约有60k+图像。 [97]在所选图像上提供68个2D和3D面部界标注释。

8.2.2 “In-the-wild” databases

最近，研究人员致力于开发更健壮和有效的算法，以处理现实生活中的面部标志检测。为了评估这些条件下的算法，从网络上收集了一些“荒野”数据库，例如Flicks，facebook等。它们包含各种变化，包括头部姿势，面部表情，照度，种族，遮挡，等等。它们比具有“受控”条件的图像困难得多。这些数据库列出如下：

AFLW [53]：“野外带注释的地标（AFLW）”数据库包含约25K图像。基于可见性，注释最多包括21个地标。
LFPW [10]：野生（LFPW）数据库中的带标签的面部部分包含1,432张面部图像。由于仅提供URL，因此某些图像不再可用。原始数据库提供了29个地标注释。 [79]提供了用于1,132个训练图像和300个测试图像的68个面部标志的重新注释。
Helen数据库[54]：Helen数据库包含2,330个高分辨率图像，其中包含194个密集的面部地标注释。 [79]也提供了68个地标的重新注释。
AFW [125]：“带注释的野外面孔”（AFW）数据库包含约205张图像，这些图像具有比其他“野生”数据库相对更大的姿势变化。数据库提供了6个面部地标注释，[79]提供了68个地标的重新注释。
Ibug 300-W [79] [81]：来自Wild（300-W）数据库3中300张脸的ibug数据集是迄今为止最具挑战性的数据库，变化很大。它仅包含135张图像的114张脸，并带有68个注释地标。
Ibug 300-VW [86]：“野生300视频”（300）数据库包含114种视频序列，适用于从易到难的三种不同情况。提供了68个面部地标注释。
COFW [13]：Caltech的野生面部遮挡（COFW）数据库包含具有明显遮挡的图像。有1345个训练图像和507个测试图像。有29个地标位置和地标遮挡的注释。

8.3 Evaluation and discussion

8.3.1 Evaluation criteria

面部界标检测和跟踪算法输出面部图像或视频中的面部界标位置。通过将检测到的地标位置与地面真人面部地标位置进行比较来评估准确性。特别是，如果我们将地标i的检测到的和地面的地标位置表示为 $di = {dx，i，dy，i}和gi = {gx，i，gy，i}$ ，则第 $i$ 个点的检测误差为：
Facial Landmark Detection: a Literature Survey
上述标准的一个问题是，对于尺寸不同的面孔，该错误可能会发生显着变化。要解决此问题，有几种方法可以将错误归一化。眼间距离是最流行的标准。如果将左右瞳孔中心分别表示为 $g_le和g_re$ ，则可以如下计算归一化误差：
Facial Landmark Detection: a Literature Survey
除了眼间距离以外，一些著作[80]还可以选择外眼角之间的距离作为归一化常数。对于特定的图像，例如具有极端头部姿势（>=60度）或遮挡的图像（例如，图11和图12），眼睛可能不可见，因此，一些其他归一化常数（例如来自脸部边界的脸部大小）框[125]或外眼角和外口角（脸的同一侧）[106]之间的距离可以用作标准化常数。

为了累积一幅图像的多个界标的误差，使用平均归一化误差：
Facial Landmark Detection: a Literature Survey
为了计算多幅图像上的性能，使用了平均误差或累积分布误差。平均误差计算多个图像的标准化误差的平均值。累积分布误差计算位于某些阈值下的图像的百分比（请参见图15）。

为了评估效率，使用了已处理帧的数量。通常，在没有强大的GPU或并行计算实现等的情况下，可以在常规PC（例如笔记本电脑）上评估人脸标志检测算法。

8.3.2 Evaluation of existing algorithms

Facial Landmark Detection: a Literature Survey
在表4中，我们列出了基准数据库上领先算法的性能，其类别和界标检测错误。在图15中，我们显示了LFPW数据库上某些算法的累积分布曲线。注意，在本文中，我们集中于现有文献的报道结果。还有其他详细参考文献[16] [78] [86]，它们通过在不同数据库上运行软件和已知算法的实现来提供原始评估。
Facial Landmark Detection: a Literature Survey
有几个观察结果。首先，一般而言，基于回归的方法要比整体方法和受约束的局部模型方法具有更好的性能，尤其是在图像变化较大的情况下（例如ibug 300-w）。其次，基于深度学习的回归方法（例如[119]）是领先的技术，它们可以在多个数据库上实现最先进的性能。第三，同一算法的性能在数据库中是不同的，但是多种算法的等级通常是一致的。
Facial Landmark Detection: a Literature Survey
表5列出了领先算法的效率。请注意，不同算法的计算速度是从其原始论文中报告的，其评估方法可能有所不同。例如，它们具有不同的实现选择（matlab与C ++），并且它们在不同的计算机上运行。一些算法可能只通过排除图像加载时间等来报告处理时间。通常，我们可以看到传统的级联回归方法[52] [76]比其他方法更快。

此处显示的结果通常与[16] [78]中的发现一致。在[16]中，Chrysos等人。表明，考虑到速度和准确性，一毫秒的面部对齐[52]，监督下降方法[110]和CFSS [123]是不错的选择。

8.4 Software

在表6和7中，我们列出了一些学术软件和商业软件。该学术软件通过纸质出版物引用现有方法的实现。商业软件通常仅在有限的意义上可用。对于商业软件，visage SDK涵盖了许多应用程序，包括面部标志检测，头部姿势估计和面部表情识别，这是一个不错的选择。
Facial Landmark Detection: a Literature Survey

9. Conclusion

在本文中，我们从三个主要方面对人脸标志检测算法进行了概述：整体方法，约束局部方法和基于回归的方法。此外，我们专门讨论了几种最近的算法，这些算法试图处理由头部姿势，面部表情，面部遮挡，强光照，低分辨率等引起的不同变化下的“野生”面部界标检测。此外，我们还讨论了流行的基准数据库，领先算法的性能以及一些现有软件。

关于面部界标检测仍然存在一些悬而未决的问题。首先，当前的脸部界标检测和跟踪算法在具有挑战性的“狂野”条件下仍然存在面部图像问题，包括极端的头部姿势，面部遮挡，强光照等。现有算法着重解决一个或几个问题条件。仍然缺乏可以处理所有这些情况的面部标志检测和跟踪算法。其次，缺少一个大型的人脸图像数据库，该数据库可以用人脸标志标注来覆盖所有不同的条件，这可能会大大加快算法的开发速度，而现有的数据库仅覆盖了少数条件（例如头部姿势和表情）。第三，人脸界标检测仍然严重依赖人脸检测精度，在某些情况下仍可能失败。第四，一些界标检测和跟踪算法的计算成本仍然很高。面部界标检测和跟踪算法应满足实时处理要求。

有一些未来的研究方向。首先，由于三种主要方法在方法上都具有相似性和独特性，因此最好采用结合了这三种方法的混合方法。例如，有趣的是，整体方法和CLM中使用的外观和形状模型如何以及是否可以帮助基于回归的方法。研究用于整体方法的解析解是否可以应用于每个阶段的级联回归，也很有趣，因为它们具有与第5节中讨论的相似的对象函数。反之亦然，级联回归的思想可以应用于整体方法以级联方式预测模型系数。第二，目前，动态信息是在有限的意义上使用的。面部运动信息应与面部外观和面部形状相结合，以进行面部界标跟踪。例如，有趣的是看看动态特征如何以及是否有助于面部标志的跟踪。具有面部结构信息的地标跟踪也是一个有趣的方向。第三，由于面部标志检测与其他面部行为分析任务（包括头部姿势估计和面部表情识别）之间存在关系，因此应将它们的相互作用用于联合分析。通过利用它们的依赖性，我们可以合并计算机视觉投影模型并改善所有任务的性能。最后，为了充分利用深度学习的力量，需要一个大型的注释数据库，该数据库包含不同条件下的数百万张图像。如此大的图像的注释需要一种混合注释方法，包括人工注释，在线众包和自动注释算法。