【发布时间】:2016-12-20 00:24:49
【问题描述】:
我现在正在学习 CNN。我了解卷积层和池化层是如何工作的,我了解创建特征图的方式和原因。然后我如何本地化对象? IE。我正在使用Helen dataset,其中每张照片都有 194 个面部点(轮廓、眼睛、鼻子和嘴巴)。例如,将这些面孔输入我的神经网络,我可以接收地图特征并从中计算图像中是否有眼睛的概率。但是我如何从这些特征图中知道那些眼睛到底在哪里呢?
我想到的唯一一个决定如下:假设我们有 16x16 的图像,然后使用三个 3x3 的过滤器,我们会收到三个 14x14 的“基本特征”图,没有池化(因为它使位置不太准确)我们处理它们再加上三个 3x3 的过滤器来接收 9 个具有更一般特征的地图。在这些地图上,我们找到所需特征(眼睛)的检测位置,转到上一层以查找接收到这只眼睛的元素(我们称它们为基本特征),然后从每个元素中我们转到更上一层(输入)并标记所有参与创建总和基本特征的输入层元素。
这种方式似乎太复杂和不准确,这就是为什么我要求定位图像的正确方法。
【问题讨论】:
标签: image-processing computer-vision conv-neural-network