使用局部描述符实现人脸识别（无监督学习）答案

【问题标题】：Implementing Face Recognition using Local Descriptors (Unsupervised Learning)使用局部描述符实现人脸识别（无监督学习）
【发布时间】：2016-07-18 16:31:19
【问题描述】：

我正在尝试使用 Python 实现人脸识别算法。我希望能够接收图像目录，并计算它们之间的成对距离，短距离应该希望对应于属于同一个人的图像。最终目标是对图像进行聚类并执行一些基本的人脸识别任务（无监督学习）。

由于无监督设置，我解决问题的方法是计算一个“人脸签名”（R^d 中某个 int d 的向量），然后找出一个度量，其中两个属于同一个人的面孔之间确实会有很短的距离。

我有一个人脸检测算法，它可以检测人脸、裁剪图像并执行一些基本的预处理，因此我提供给算法的图像是灰色和均衡的（见下文）。

对于“面部签名”部分，我尝试了两种方法，我在一些出版物中读到过：

获取整个（处理后的）图像的LBP（局部二进制模式）直方图
计算 7 个面部标志点（嘴巴右侧、嘴巴左侧等）的 SIFT 描述符，我使用外部应用程序对每个图像进行识别。签名是描述符的平方根的串联（这会导致更高的维度，但目前性能不是问题）。

为了比较两个签名，我使用了 OpenCV 的 compareHist 函数（参见 here），尝试了几种不同的距离度量（卡方、欧几里得等）。

我知道人脸识别是一项艰巨的任务，更不用说未经任何培训了，所以我并不期待会有很好的结果。但到目前为止，我所得到的一切似乎完全随机。例如，当计算最右边的图像与图像其余部分的距离时，我发现她与 4 Bill 最相似克林顿一家（……！）。

我在 this 的精彩演讲中读到，在测试集上执行 “度量学习” 程序很受欢迎，这应该会显着改善结果。然而，它确实在演示文稿和其他地方说“常规”距离测量也应该得到好的结果，所以在我尝试这个之前，我想了解为什么我正在做的事情没有得到任何结果。

最后，我的问题，我很想得到任何帮助：

我想到的一个改进是只在实际的脸上执行 LBP，而不是在角落和所有可能在签名中插入噪音的地方。如何在计算 LBP 之前屏蔽掉不是面部的部分？我也在这部分使用 OpenCV。
我对计算机视觉还很陌生；我将如何“调试”我的算法以找出问题所在？这可能吗？
在无监督设置中，是否有任何其他方法（不是局部描述符+计算距离）可以用于人脸聚类任务？
OpenCV 模块中是否还有其他我没有想到的可能有用的东西？似乎那里的所有算法都需要训练并且在我的情况下没有用 - 该算法需要处理全新的图像。

提前致谢。

【问题讨论】：

标签： opencv image-processing face-recognition unsupervised-learning

【解决方案1】：

您正在寻找的是无监督的特征提取 - 获取一堆未标记的图像并找到描述这些图像的最重要的特征。

最先进的无监督特征提取方法均基于（卷积）神经网络。看看自动编码器 (http://ufldl.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity) 或受限玻尔兹曼机 (RBM)。

您还可以使用现有的人脸检测器，例如 DeepFace (https://www.cs.toronto.edu/~ranzato/publications/taigman_cvpr14.pdf)，仅使用特征层并使用这些层之间的距离将相似的人脸组合在一起。

恐怕 OpenCV 不太适合这项任务，您可能需要检查 Caffe、Theano、TensorFlow 或 Keras。

【讨论】：

感谢您的回复。我实际上有一个可以使用的 Caffe 框架。您是否建议开发一个大型的预处理人脸训练集，并通过 CNN 运行它以获得每个图像的更好表示，然后计算图像之间的距离？你认为有足够好的表示，一个简单的欧几里德距离就足够了吗？
是的，这正是我的想法。如果 CNN 学习的特征很好，一个简单的欧式距离就足够了。