SIFT 中的最终描述符答案

【问题标题】：Final Descriptor in SIFTSIFT 中的最终描述符
【发布时间】：2016-12-24 18:24:27
【问题描述】：

我是计算机视觉的新手，并开始学习计算机视觉社区中非常流行的主题，即 SIFT。但我对一个实现细节感到困惑：

在检测到关键点之后，我们必须构建 4 x 4 的局部直方图，作为最终的 SIFT 描述符，对吧？每个局部直方图包含 4 x 4 像素的局部邻域的方向。所以总的来说，我们有 16 乘以 16 等于 256 个像素，它们位于关键点周围的邻域内。所以这个邻域是一个 16 x 16 的像素网格。

但是这个社区是如何详细确定的呢？邻域是否根据关键点的方向旋转？这个 256 像素邻域内的像素是否根据检测到关键点的比例而分开？

感谢大家的帮助！

【问题讨论】：

【解决方案1】：

首先，在多个尺度上提取 SIFT 关键点。描述符是使用相应的比例计算的。所以，我不会说“像素”，因为它可能是模棱两可的。对于您的问题，我想引用original paper（第 6.1 节）：

首先是图像梯度幅度和方向在关键点位置周围进行采样，使用为图像选择高斯模糊级别的关键点。

为了实现定位不变性，描述符的坐标和梯度方向是相对旋转的到关键点方向。

一个高斯加权函数，σ 等于描述符窗口宽度的一半用于为每个样本点的大小分配一个权重。

我希望这能回答您的问题。如果有不清楚的地方，请不要犹豫。

【讨论】：