如何使用 CNN 的特征图来定位图像上的对象？答案

【问题标题】：How to use feature maps of CNN to localize obect on the image?如何使用 CNN 的特征图来定位图像上的对象？
【发布时间】：2016-12-20 00:24:49
【问题描述】：

我现在正在学习 CNN。我了解卷积层和池化层是如何工作的，我了解创建特征图的方式和原因。然后我如何本地化对象？ IE。我正在使用Helen dataset，其中每张照片都有 194 个面部点（轮廓、眼睛、鼻子和嘴巴）。例如，将这些面孔输入我的神经网络，我可以接收地图特征并从中计算图像中是否有眼睛的概率。但是我如何从这些特征图中知道那些眼睛到底在哪里呢？

我想到的唯一一个决定如下：假设我们有 16x16 的图像，然后使用三个 3x3 的过滤器，我们会收到三个 14x14 的“基本特征”图，没有池化（因为它使位置不太准确）我们处理它们再加上三个 3x3 的过滤器来接收 9 个具有更一般特征的地图。在这些地图上，我们找到所需特征（眼睛）的检测位置，转到上一层以查找接收到这只眼睛的元素（我们称它们为基本特征），然后从每个元素中我们转到更上一层（输入）并标记所有参与创建总和基本特征的输入层元素。

这种方式似乎太复杂和不准确，这就是为什么我要求定位图像的正确方法。

【问题讨论】：

标签： image-processing computer-vision conv-neural-network

【解决方案1】：

您想要的称为“对象本地化”。有很多技术可以做到这一点。见 f.e.斯坦福 CS231 https://www.youtube.com/playlist?list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC 的第 8 和第 9 课（2 月 1 日和 2 月 3 日在 http://cs231n.stanford.edu/syllabus.html）。

【讨论】：

感谢您的链接，这就是我四天以来一直在寻找的内容。是否有免费访问的视频讲座？还是我应该参加课程？
视频讲座播放列表的链接发布在 Andrej Karpathy 的 youtube 帐户上，他是讲座的作者之一。所以，我假设讲座视频记录是合法的，并且至少可供个人使用。
“有免费的视频讲座吗？” - 嗯，您看到播放列表中的视频还是在您的国家/地区受到限制？