SIFT特征和图像分类？答案

【问题标题】：SIFT features and classification of images?SIFT特征和图像分类？
【发布时间】：2018-06-27 16:26:58
【问题描述】：

我是图像处理的新手，我想提取图像特征以进行一些分类。我在理解管道时遇到问题。

据我了解，我有一张图片，我对它们运行了 SIFT 算法。这给了我一组每个图像的描述符，数量不等，固定长度为 128。

然后我继续对它们进行聚类，因为不可能将算法应用于不同数量的特征。为此，我将所有图像的所有描述符堆叠起来，并使用所需的集群数量运行 k 均值算法。我得到的是 k 个长度为 128 的特征。

这就是我感到困惑的地方，所以我现在有了这些新的描述符，我该怎么处理它们？如果它们代表所有图像，我不明白如何将它们插入分类器？每张图像是否应该有自己独立的特征来输入分类器？

我确定我不理解这个概念，但是任何人都可以澄清一下我得到一个 k*128 大小的矩阵后会发生什么吗？例如，将什么输入到 SVM 分类器以及如何输入？这个 k 表示结果如何足以训练分类器？

谢谢！

编辑：我可能混淆了关键点和描述符，对不起，图像处理新手！

【问题讨论】：

标签： machine-learning computer-vision classification svm sift

【解决方案1】：

您应该研究被称为“视觉词袋”的图像分类/图像检索方法 - 它非常相关。一袋视觉词是一个固定长度的特征向量v，它总结了图像中特征的出现。这利用了所谓的 codebook（也称为 dictionary，来自文本检索的历史用途），在您的情况下，它是由您的 K-means 聚类构建的。要为给定图像制作 v，最简单的方法是分配 v[j] 最接近第 j 个簇质心的 SIFT 描述符的比例。这意味着 V 的长度为 K，因此它与图像中检测到的 SIFT 特征的数量无关。

具体来说，假设你已经完成了 K 意味着 K = 100 的聚类。让我们用 ci 来表示 ith 聚类中心。对于 SIFT，这将是一个大小为 128 的向量。现在，对于给定的输入图像，您将这个向量设为 v，它的大小为 100 并用零初始化。然后，您从图像中提取特征及其相应的描述符。假设有 N 个描述符，我们称它们为 d0, d2,...,d(N-1),其中 dj 是 jth 描述符。对于每个 dj，您计算它与集群中心 c0、c2、...c 99。然后取距离 dj 最短的簇索引 k，并递增：v[k]+=1。请注意，这个过程可以很好地并行化，特别是在 GPU 上。此外，使用所谓的近似最近邻居替换此过程可能会更快，例如使用FLANN 库。

【讨论】：

谢谢你，只是一个问题，你说分配最接近第 j 个集群的 sift 描述符的比例，你能在你的回答中举一个简单的例子吗？我理论上理解它，但我并不真正理解这个新的 v 是如何形成的。根据我的理解，v是每个图像的每个簇中描述符数量的向量？