Suppressing Uncertainties for Large-Scale Facial Expression Recognition

注：本文为CVPR2020年的一篇表情识别方面的论文，因为看了这篇论文所以翻译了一下想做个记录，仅供学习，翻译错误或不当之处还请谅解！原论文地址：https://www.researchgate.net/publication/339470924_Suppressing_Uncertainties_for_Large-Scale_Facial_Expression_Recognition

（大规模人脸表情识别中的不确定性抑制）

摘要

由于表情模糊、低质量的人脸图像以及注释者的主观性等因素的影响，对一个定性的大规模人脸表情数据集进行注释是非常困难的。这些不确定性导致了深度学习时代大规模人脸表情识别的一个关键挑战。为了解决这一问题，本文提出了一种简单而有效的自修复网络（SCN），它可以有效地抑制不确定性，防止深度网络过度拟合不确定的人脸图像。具体而言，SCN从两个不同的方面抑制了不确定性：1）基于小批量的自我注意机制，对每个训练样本进行排序正则化加权；2）通过仔细的重标记机制，在排名最低的组中修改这些样本的标签。在合成的FER数据集和收集到的WebEmotion数据集上的实验验证了该方法的有效性。在公共benchmark上测试的结果表明，我们的SCN在RAF-DB、AffectNet和FERPlus上的表现分别为88.14%、60.23%和89.35%。代码将在https://github.com/kaiwang960112/Self-Cure-Network。

1.介绍

面部表情是人类表达情感状态和意图的最自然、最有力、最普遍的信号之一。自动识别面部表情对于帮助计算机理解人类行为并与之交互也很重要。在过去的几十年里，研究人员通过算法和大规模的数据集在面部表情识别（FER）方面取得了重大的进展，其中数据集的收集可以在实验室或者in the wild，比如CK+、MMI、Oulu-CASIA、SFEW/AFEW、FERPlus、AffectNet、EmotioNet、RAF-DB等。

然而，对于从互联网上采集到的大规模FER数据集，由于注释者主观的不确定性以及in-the-wild人脸图像的模糊性，使得高质量的标注变得非常困难。如图1所示，不确定性从高质量和明显的面部表情增加到低质量和微表情。这些不确定性通常会导致标签不一致和标签不正确，严重阻碍了大规模人脸表情识别（FER）的发展，尤其是基于数据驱动的深度学习人脸表情识别。一般情况下，带有不确定性的FER训练会导致以下问题。首先，它可能导致对不确定性样本的过拟合，这些样本可能会被错误标记。第二，对于一个学习有用的面部表情特征模型来讲这是有害的。第三，高比例的错误标签甚至会使模型在优化的早期阶段出现分离。

图1：来自RAF-DB的真实人脸图像不确定性插图。正确的样本对于机器乃至人类来说都是极其困难的，因此在训练中最好加以抑制。

为了解决这些问题，我们提出了一种简单而有效的方法，即自修复网络（SCN），来抑制大规模人脸表情识别的不确定性。SCN由三个关键模块组成：自注意重要性加权、排序正则化和噪声重标记。在给定一批图像的基础上，首先利用backbone CNN提取人脸特征。然后，自我注意重要性加权模块学习每个图像的权重，以捕获样本重要性进行损失加权。预计不确定性人脸图像应采用低重要性权重。此外，排序正则化模块按降序对这些权重进行排序，将它们分成两组（即高重要性权重和低重要性权重），并通过在两组的平均权重之间设置一个边界来对两组进行正则化。这种正则化用一个损失函数来实现，称为秩正则化损失（RR损失）。排序正则化模块确保第一模块学习有意义的权重来突出确定性样本（例如可靠的注释）和抑制不确定的样本（例如模糊的注释）。最后一个模块是一个仔细的重标记模块，它尝试通过比较最大预测概率与给定标签的概率来重新标记来自底部组的样本。如果最大预测概率大于给定的带边缘阈值的标签的预测概率，则将伪标签分配给样本。此外，由于不确定性的主要证据是不正确/噪声注释问题，我们从互联网上收集了一个极端噪声的FER数据集，称为WebEmotion，以研究具有极端不确定性的SCN的效果。

总的来说，我们的贡献可以概括如下：

本文创新性地提出了人脸表情识别中的不确定性问题，并提出了一种自修复网络来减少不确定性的影响。
我们精心设计了一个秩正则化方法来监督SCN学习有意义的重要性权重，为重标记模块提供了参考。
我们广泛验证了我们的SCN在合成的FER数据和一个从互联网上收集的新的现实世界不确定情绪数据集（WebEmotion）。我们的SCN在RAF-DB上的性能也达到了88.14%，在AffectNet上达到了60.23%，在FERPlus上达到了89.35%，创造了新的记录。

2.相关工作

2.1人脸表情识别

　　一般来说，一个FER系统主要包括三个阶段，即人脸检测、特征提取和表情识别。在人脸检测阶段，利用MTCNN和Dlib等多个人脸检测器对复杂场景中的人脸进行定位。检测到的人脸可以进一步交替地对齐。在特征提取方面，设计了多种方法来获取由表情引起的面部几何特征和外观特征。根据特征类型，它们可以分为工程特征和基于学习的特征。对于工程特征，可以进一步分为基于纹理的局部特征、基于几何的全局特征和混合特征。基于纹理的特征主要有SIFT、HOG、LBP直方图、Gabor小波系数等。基于几何的全局特征主要基于鼻子、眼睛和嘴周围的landmark点。将两个或两个以上的工程特征结合起来就是混合特征提取，可以进一步丰富表现形式。对于所学的特征，Fasel发现浅层的CNN对于人脸姿势和规模是很健壮的。Tang和Kahou等人，利用深度CNN进行特征提取，分别赢得FER2013和Emotiw2013挑战赛。Liu等人提出了一种基于面部动作单元的CNN表情识别体系结构。最近，Li和Wang等人设计了基于区域的注意网络，用于姿势和遮挡感知FER，其中区域可以从landmark点或固定位置裁剪。

2.2不确定性学习

　　FER任务中的不确定性主要来自于模糊的面部表情、低质量的面部图像、不一致的注释和错误的注释（即噪声标签）。尤其是噪声标签学习在计算机视觉领域得到了广泛的研究，而其他两个方面的研究却很少。为了处理噪声标签，一个直观的想法是利用一个干净的小集合数据，这些数据可用于在训练过程中评估标签的质量，或估计噪声分布、或训练特征提取器。Li等人提出了一个统一的蒸馏框架，使用来自一个小的干净数据集的“边”信息和知识图中的标签关系，以“对冲”从噪声标签中学习的风险。Veit等人使用一个多任务网络，共同学习如何清除噪声注释和对图像进行分类。Azadi等人通过辅助图像正则化来选择具有噪声标签的深层CNNs的可靠图像。其他方法不需要一个小的干净数据集，但它们可能会假设噪声样本的额外约束或分布，例如随机翻转标签的特定损失，通过MentorNet对损坏标签上的深层网络进行正则化，以及其他方法，通过潜在的正确标签连接到有噪声的标签上，用一个softmax层对噪声进行建模。对于FER任务，Zeng等人首先考虑不同FER数据集之间的注释不一致问题，并提出利用这些不确定性来改进FER。相比之下，我们的工作集中在抑制这些不确定性以更好地学习面部表情特征。

3.自修复网络

　　为了学习具有不确定性的鲁棒人脸表情特征，我们提出了一种简单而有效的自修复网络（SCN）。在本节中，我们首先概述了SCN，然后介绍了它的三个模块。最后给出了SCN的具体实现。

3.1自修复网络概述

　　我们的SCN建立在传统的CNNs之上，由三个关键模块组成：i）自我注意重要性加权，ii）排名正则化，iii）重标记，如图2所示。

图2：我们的自修复网络的pipeline。脸部图像首先被馈送到Backbone CNN中以进行特征提取。自我注意重要性加权模块从面部特征中学习样本加权以进行加权。

Rank Regularization模块将样本权重作为输入，并通过排名操作和基于margin的损失函数对其进行约束。重新标记模块通过将最大预测概率与给定标记的概率进行比较来寻找可靠的样本。

贴错标签的样品用红色实心矩形标记，模糊的样品用绿色破折号标记。值得注意的是，SCN主要依靠重新加权操作来抑制这些不确定性，并且仅修改一些不确定性样本。

　　在给定一批样本不确定的人脸图像的基础上，首先利用backbone network提取人脸的深层特征。自注意重要性加权模块使用全连接（FC）层和sigmoid函数为每个图像分配一个重要权重。这些权重乘以样本重加权方案的对数。为了显式地降低不确定性样本的重要性，进一步引入了rank regularization模块对注意权重进行正则化。在rank regularization模块中，我们首先对学习到的注意权重进行排序，然后将其分成两组，即高重要性组和低重要性组。然后我们在这些组的平均权重之间添加一个基于边界的损失的约束，称为rank regularization loss（RR-Loss）。为了进一步改进我们的SCN，我们增加了重标记模块来修正低重要性组中的一些不确定样本。这个重标记操作的目的是寻找更多干净的样本，然后增强最终的模型。整个SCN可以以端到端的方式进行训练，并且可以很容易地添加到任何CNN backbones中。

3.2自注意重要性加权

　　我们引入了自注意重要性加权模块来捕捉样本对训练的贡献。预计确定性样本可能具有较高的重要性权重，而不确定性样本的重要性较低。设表示N幅图像的面部特征，自注意重要性加权模块以F为输入，对每个特征输出一个重要权重。具体而言，自注意重要性加权模块由线性全连接层和sigmoid激活函数组成，可以表述为：

其中是第i个样本的重要权重，是用于attention的FC层的参数，是sigmoid函数。本模块也为其他两个模块提供了参考。

Logit-Weighted 交叉熵损失。对于注意力权重，我们有两个简单的选择来执行损失加权，这是受[19]启发的。第一种选择是将每个样本的权重乘以样本损失。在我们的例子中，由于权重是以端到端的方式优化的，并且是从CNN的特性中学习的，所以它们注定是零，因为这个繁琐的解决方案没有损失。MentorNet和其他自学方法通过交替最小化来解决这个问题，即一次优化一个，而另一个保持不变。在本文中，我们选择了[19]中更有效的logit-weighted方法。对于多类交叉熵损失，我们将加权损失称为logit-weighted交叉熵损失（WCE-Loss），其公式如下：

其中是第j个分类器。如[30]所示，与呈正相关。

3.3 Rank Regularization

　　在（0,1）中，上述模块中的自我注意权重可以是任意的。为了明确约束不确定性样本的重要性，我们精心设计了一个rank regularization模块来正则化注意权重。在rank regularization模块中，我们首先对学习到的注意权重进行降序排序，然后以的比率将其分成两组。rank regularization保证了高重要性组的平均注意权重高于低重要性组的平均注意权重，并留有一个边界。形式上，我们为此定义了rank regularization损失（RR-Loss），如下所示：

和

其中是可以固定超参数或可学习参数的margin，和分别是样本的高重要性组和样本的低重要性组的平均值。在训练中，总损失函数为，其中是一个折衷比。

3.4重标记

　　在rank regularization模块中，每个小批量被分成两组，即高重要性组和低重要性组。我们通过实验发现，不确定性样本通常具有较低的重要性权重，因此一个直观的想法是设计一个策略来重新标记这些样本。修改这些注释的主要挑战是要知道哪个注释是不正确的。

　　具体来说，我们的重标记模块只考虑低重要性组中的样本，并根据Softmax概率执行。对于每个样本，我们将最大预测概率与给定标签的概率进行比较。如果最大预测概率高于具有阈值的给定标签的概率，则样本被分配给新的伪标签。形式上，重标记模块可以定义为：

其中表示新标签，表示阈值，表示最大预测概率，表示给定标签的预测概率。和分别是原始给定的标签和最大预测的索引。

　　在我们的系统中，不确定性样本期望获得低重要性权重，从而通过重新加权来降低它们的负面影响，然后落入低重要性组，最后可以通过重标记作为特定样本进行校正。这些校正的样本可以在下一个epoch获得高重要性权重。我们期望网络可以通过重新加权或重标记来自行治愈，这就是为什么我们称我们的方法为自我修复网络的原因。

3.5实现

　　预处理和面部特征。在我们的SCN中，人脸图像由MTCNN检测和对齐，并进一步调整到224*224像素。SCN用Pytorch工具箱实现，backbone network为ResNet-18。默认情况下，ResNet-18是在MS-Celebe-1M人脸识别数据集上预训练的，面部特征是从其最后一个池化层中提取的。

　　训练。我们用8个Nvidia Titan 2080ti GPU对我们的SCN进行端到端的训练，将批量设置为1024。在每次迭代中，训练图像被分为两组，默认情况下包括70%的高重要性样本和30%的低重要性样本。高重要性组和低重要性组的平均值之间的margin 可以默认设置为0.15或者设计为可学习的参数。这两种策略将在随后的实验中进行评估。整个网络采用RR-Loss和WCE-Loss联合优化。两种损失的比例根据经验设定为1:1，其影响将在随后的实验消融研究中进行研究。学习率被初始化为0.1，分别在15个epochs和30个epochs后进一步除以10。训练在40个epochs停止。重标记模块用于从第10个epochs开始的优化，其中重标记margin 默认设置为0.2。

4.实验

　　在本节中，我们首先描述了三个公共数据集和我们的WebEmotion数据集。然后我们证明了在合成和真实世界的噪声面部表情注释的不确定性下，我们的SCN的鲁棒性。此外，我们还进行了定性和定量结果的消融研究，以展示在SCN中每个模块的有效性。最后，我们将我们的SCN与公共数据集上最先进的方法进行比较。

4.1数据集

　　RAF-DB包含30000张由40名训练有素的人类编码员用基本或复合表情注释的面部图像。在我们的实验中，只使用了具有六种基本表情（中性、快乐、惊讶、悲伤、愤怒、厌恶、恐惧）和中性表情的图像，这导致12271幅图像用于训练，3068幅图像用于测试。整体样本精度用于测量。

　　FERPlus是用于ICML2013挑战赛中的FER2013的延伸。它是由谷歌搜索引擎收集的大规模数据集。它由28709个训练图像、3589个验证图像和3589个测试图像组成，所有这些图像都被调整到48*48。藐视包括在内，这导致该数据集中有8个类别。总样本精度用于测量。

　　AffectNet是迄今为止最大的数据集，它提供了分类和Valence-Arousal注释。它通过在三个搜索引擎中查询与表情相关的关键词，包含了来自互联网的100多万张图像，其中45万幅图像是用FERPlus中的八个表情标签手动注释的。它具有不平衡的训练和测试集以及平衡的验证集。验证集的平均类别精度用于测量。

　　收集的WebEmotion。由于不确定性的主要证据是不正确/有噪声的标注问题，我们从互联网上收集了一个极端噪声的FER数据集，称为WebEmotion，以研究具有极端不确定性的SCN网络的影响。WebEmotion是从Youtube下载的一个视频数据集（虽然我们通过给帧分配标签来将其用作图像数据），其中包含一组关键词，包括40个与表情相关的单词，来自亚洲、欧洲、非洲、美洲的45个国家以及6个与年龄相关的单词（即婴儿、女士、妇女、男人、老人、老妇）。它由与FERPlus相同的8个类组成，其中每个类都与几个表情相关的关键词相关联，例如“快乐”与关键词“快乐”、“有趣”、“狂喜”、“自鸣得意”和“卡哇伊”相关联。为了获得关键词和搜索到的视频之间有意义的相关性，仅选择少于4分钟的前20个抓取的视频。这导致大约41000个视频被进一步分割成200000个视频剪辑，并限制一张脸（由MTCNN检测到）至少出现5秒钟。对于评估，我们只使用WebEmotion进行预处理，因为注释非常困难。表1显示了WebEmotion的统计数据。元视频和视频剪辑将向研究社区公开。

4.2基于合成不确定性的SCN评估

　　FER的不确定性主要来自模糊的面部表情、低质量的面部图像、不一致的注释和不正确的注释（即有噪声的标签）。考虑到只有有噪声的标签才能被定量分析，我们探索了三个级别的标签噪声的SCN的鲁棒性，包括10%、20%和30%对RAF-DB、FERPlus和AffectNet数据集。具体来说，我们为每个类别随机选择10%、20%和30%的训练数据，并将它们的标签随机更改为其他标签。在表2中，我们使用ResNet-18作为CNN backbone，并使用两种训练方案将我们的SCN与baseline（传统CNN训练，不考虑标签噪声）进行比较：i）从头开始训练，ii）在Ms-Celeb-1M上使用预训练模型进行微调。我们还比较了我们的SCN与RAF-DB上的两种最先进的噪声容忍方法，即CurriculumNet和MetaCleaner。

表2：在合成噪声FER数据集上对SCN的评估。 “预训练”是指我们从面部识别中使用预训练模型，否则从头开始进行训练。

　　如表2所示，我们的SCN持续大幅提高了baseline。对于信噪比为30%的方案i)，我们的SCN在RAF-DB、FERPlus和AffectNet上的性能分别比baseline高13.80%、1.07%和1.91%。对于信噪比为30%的方案ii），我们的SCN在这些数据集上虽然性能相对较高，但仍获得了2.20%、2.47%和3.12%的增益。对于这两种方案，随着噪声比的增加，SCN带来的好处变得更加明显。CurriculumNet通过使用聚类密度测量数据复杂度来设计训练课程，可以在早期避免训练带有噪声标记的数据。MetaCleaner将每类中多个样本的特征集合成一个加权平均特征进行分类，同时也可以弱化噪声标记样本。CurriculumNet和MetaCleaner在很大程度上改善了baseline，但仍然不如更简单的SCN。另一个有趣的方法是SCN在RAF-DB上的改进要比其他的数据集高得多。可能有以下原因解释。一方面，RAF-DB由复合面部表情组成，用众包的方式由40个人标注，使得数据标注更加不一致。因此，我们的SCN也可以在没有合成标签噪声的情况下获得对原始RAF-DB的改进。另一方面，AffectNet和FERPlus由专家注释，因此涉及的不一致标签较少，导致对RAF-DB的改进较少。

　　在SCN中的可视化。为了进一步研究在噪声注释下我们的SCN的有效性，我们将SCN训练阶段的重要性权重可视化在噪声比为10%的RAF-DB数据库上。在图3中，第一行表示用原始标签训练SCN时的重要性权重。第二行的图像用合成的损坏标签进行注释，我们使用SCN（没有重标记模块）来训练合成的噪声数据集。事实上，SCN将这些标签损坏的图像视为噪声，并自动抑制它们的权重。经过足够的训练epochs后，重标记模块被添加到SCN中，并且这些噪声标记的图像被重新标记（当然，由于我们有重标记约束，许多其他的图像可能不会被重标记）。在其他几个epochs之后，它们的重要性权重变高（第三行），这表明我们的SCN可以“自我修复”损坏标签。值得注意的是，来自重标记模块的新标签可能与ground-truth标签不一致（参见第1、4和6列），但它们在可视化方面也是合理的。

图3：在我们的SCN中可视化所学重要性的权重，我们在重新标记前后（第二行和第三行）带有原始标签（第一行）和合成噪声标签的随机选择图像上显示这些权重。

4.3探索现实世界不确定性的SCN

　　合成噪声数据证明了SCN“自修复”能力的有效性。在本节中，我们将SCN应用于真实世界的FER数据集，该数据集可以包含所有类型的不确定性。

　　基于WebEmotion的预处理SCN。我们收集的WebEmotion数据集由大量噪声组成，因为查询关键字被视为标签。为了更好地验证SCN对真实世界噪声数据的效果，我们将SCN应用于WebEmotion进行预处理，然后在目标数据集上对模型进行微调。我们在表3中显示了对比试验。从第1行和第2行可以看出，在没有SCN的WebEmotion上进行预处理，在RAF-DB、FERPlus和AffectNet上分别将baseline提高了6.97%、9.85%和1.80%。在目标数据集上使用SCN进行微调可以获得1%到2%的增益。用SCN对WebEmotion进行预处理，进一步将在RAF-DB上的性能从80.42%提高到82.45%。这表明SCN在WebEmotion上学习了健壮的特征，这对于进一步的微调更有利。

表3：SCN对WebEmotion进行预训练的效果。第二列表示有或没有SCN的微调

　　原始FER数据集上的SCN。我们进一步在原始FER数据集上进行实验，以评估我们的SCN，因为这些数据集不可避免地遭受不确定性，例如模糊的面部表情、低质量的面部图像等。结果如表4所示。当从零开始训练时，我们提出的SCN在RAF-DB、AffectNet和FERPlus上分别以6.31%、0.7%和1.02%的增益持续改善baseline。MetaCleaner也提高了在RAF-DB上的baseline，但比我们的SCN稍差。通过预处理，我们在这些数据集上仍然获得了2.83%、1.73%和1.21%的改进。SCN和MetaCleaner的改进表明，这些数据集确实存在不确定性。为了验证我们的推测，我们对RAF-DB的重要性权重进行了排序，并在图4中显示了一些重要性权重较低的例子。从左上到右下方的ground-truth标签是惊讶、中性、中性、悲伤、惊讶、惊讶、中性、惊讶、中性、惊讶。我们发现低质量和遮挡的图像很难注释，并且更有可能在SCN中具有低重要性权重。

表4：实际FER数据集上的SCN。 SCN的改进表明，这些公共数据集或多或少都存在不确定性。

图4：低权重的10个RAF-DB（不含合成噪音标签）示例。每列对应一个基本情感。可以猜到它们的标签，而RAD-DB的真实标签也包含在文本中。

4.4消融研究

　　对SCN中三个模块的评估。为了评估SCN各模块的效果，我们设计了一项消融研究，以研究在RAF-DB上的WCE-Loss、RR-Loss和重标记模块。我们在表5中显示了实验结果。以下是一些观察结果。首先，对于两种训练方案，添加到baseline（第一行）中的简单的重标记模块（第二行）会稍微降低性能。这可能是因为从baseline模型来看，许多重标记操作是错误的。这间接表明，我们精心设计的重标记在低重要性组与rank regularization更有效。第二，当增加一个模块时，我们通过WCE-Loss获得了最高的改善，在RAF-DB上将baseline从72%改善到76.26%。这表明重新加权是对我们的SCN贡献最大的模块。第三，RR-Loss和重标记模块可以进一步提高WCE-Loss 2.15%。

表5：SCN中三个模块的评估

　　比率的评估。在表6中，我们评估了RR-Loss和WCE-Loss之间不同比率的影响。我们发现为每一个loss设定相同的权重可以达到最好的效果。将RR-Loss的权重从0.5增加到0.8会显著降低性能，这表明WCE-Loss更重要。

表6：RR-Loss和WCE-Loss之间比率的评估

　　和的评估。是一个margin参数，用于控制高重要性组和低重要性组之间的平均margin。对于固定设置，我们从0到0.30进行评估。图5（左）显示了固定和学习的结果。默认的=0.15获得最佳性能，这表明margin应该是一个适当的值。我们还设计了一个可学习的范数，并将其初始化为0.15。原始RAF-DB数据集和噪声RAF-DB数据集的可学习收敛到0.1420.05，性能分别为77.76%和69.45%。

图5：在RAF-DB数据集上评估margin和以及比率。

　　是确定何时重新标记样本的margin。默认为0.2。我们在原始RAF-DB上从0到0.5评估，结果如图5（中间）所示。=0表示如果最大预测概率大于给定标签的概率，我们将重新标记样本。较小的会导致许多不正确的重新标记操作，这可能会严重影响性能。大的导致很少的重新标记操作，这收敛到没有重新标记。我们在0.2中获得最佳性能。

　　的评估。是小批量中高重要性样本的比率。我们研究了从0.9到0.5的不同比率的合成噪声和原始的RAF-DB数据集。结果如图5（右）所示。我们的默认比率是0.7，这可以实现最佳性能。较大的降低了SCN的能力，因为它认为很少的数据是不确定的。较小的导致过度考虑不确定性，不合理地降低了训练损失。

4.5与最先进水平的比较

　　表7将我们的方法与RAF-DB、AffectNet和FERPlus上的几种最先进的方法进行了比较。IPA2LT引入了潜在ground-truth思想，用于在不同的FER数据集上使用不一致的注释进行训练。gaCNN利用一个patch-based注意网络和一个全局网络。RAN利用面部区域和具有级联注意网络的原始面部。由于裁剪的补丁和区域，gaCNN和RAN非常耗时。我们提出的SCN在推断中不会增加任何成本。我们的SCN在RAF-DB、AffectNet和FERPlus上分别以88.14%、60.23%和89.35%（IR50[9]）优于这些最新的方法。

表7：与最新结果的比较。*这些结果使用标签分布进行训练。由于AffectNet不平衡，因此使用+过采样。 ‡RAF-DB和AffectNet一起用于训练。请注意，IPA2LT在AffectNet上使用7个类进行测试。

个人在RAF-DB上的复现结果：

5.结论

　　本文提出了一种自修复网络来抑制面部表情数据的不确定性，从而学习FER的鲁棒性特征。SCN由三个新模块组成，包括自注意重要性加权、排序正则化和重标记。第一个模块通过自我注意学习每个面部图像的权重，以获取样本对训练的重要性，并用于损失加权。排序正则化确保第一模块学习有意义的权重以突出确定性样本并抑制不确定性样本。重标签模块视图识别贴错标签的样本并修改其标签。在三个公共数据集和我们收集的WebEmotion上的广泛实验表明，我们的SCN获得了最先进的结果，并且可以有效地处理合成和现实世界的不确定性。