如何处理对象检测的遮挡、扭曲或透视失真？答案

【问题标题】：How do I deal with occlusion, warping, or perspective distortion for object detection?如何处理对象检测的遮挡、扭曲或透视失真？
【发布时间】：2015-04-02 09:48:48
【问题描述】：

我正在使用 SIFT 功能来检测衣服上的徽标。 SIFT 是相当强大的，因为它是尺度不变的，但是如何处理遮挡和翘曲的问题呢？

更具体地说，衣服上的标志可能会被部分遮挡，也可能会在衣服被拉伸或挤压时翘曲。

有什么建议和方向吗？提前致谢！

这里有一些例子：

腿上的标志：

【问题讨论】：

如果您的 SIFT-only 性能很差，我可能会尝试将您获得的特征输入到机器学习算法中。有很多方法，这里有一个开始：ccc.inaoep.mx/~emorales/Papers/2010/leonardo.pdf 另一个想法是使用部分/3d 旋转徽标更新您的数据库（仅当您没有检测到许多不同类型的徽标时才可行）
感谢您的回答，但是有超过 200 种徽标。
帮不了你 - 但很好的问题包括说明性图片。
@kim 更有理由阅读 ML ;)

标签： opencv image-processing machine-learning computer-vision object-detection

【解决方案1】：

bag of words 是您的答案。它会跳过一个仿射变换来确认您的 SIFT 点是否正确对齐，并仅使用它们的描述符来确认它们的身份。您支付的价格 - 您将需要更多积分来确认徽标。

除此之外，您还可以编写自己的空间一致性验证例程，因为即使仿射变换不适合您的失真图像，基本的排序约束（右侧、左侧、底部和顶部的内容）应该仍然有效。

【讨论】：

感谢您的回答。对于词袋法，1）。我需要专门选择图像来学习字典吗？即包含不同类型徽标的图像，以及每个徽标在不同情况下（例如具有不同大小、视点、遮挡）的图像？ 2）。 Bag of words 方法可以找到相似的图像，但是如果图像中徽标的大小比例非常小，例如我帖子中的第三张图像，并且获得的直方图表示可能无法反映该徽标，因为它与整个图像。 BOW 在这种情况下仍然有效吗？谢谢！
记住 SIFT 是尺度不变的，对吧？是的，您需要指定图像来学习字典，我认为字典将包含最常见的描述符类别。在学习过程中使用 K-means 查找单词；然后将每个描述符分配给最近的聚类以在识别过程中找到“单词”。单词袋描述符只是一个直方图，其中包含不同“单词”的频率，无论它们的位置如何。最后，由于您将丢失空间信息，因此很难对徽标进行本地化，甚至很难确定其中有多少个徽标。