【发布时间】:2016-03-08 20:47:57
【问题描述】:
我一直在玩 Fast-RCNN 一段时间,但仍然无法获得一些核心机制。
在教程幻灯片(http://tutorial.caffe.berkeleyvision.org/caffe-cvpr15-detection.pdf 第 28 页)中,他们有一个示例输出,每个对象只有一个边界框:
http://s22.postimg.org/7rbu05xbl/Screen_Shot_2015_12_04_at_2_19_57_PM.png
具体来说,对所有区域提议(https://github.com/rbgirshick/fast-rcnn/blob/master/lib/fast_rcnn/test.py#L324)执行非最大抑制,但在我的情况下,它仍然包含图像中每个对象的数十个区域。
我的边界框如下所示,阈值为 0.99:
http://s29.postimg.org/oc33ujgrb/foo.jpg
重叠区域的边界框如何以及在何处最终确定为一个?
【问题讨论】:
-
能否请您发布一张图片来说明您要解释的内容?
-
@carlosdc 我不知何故认为边界框最终确定为几个,但它可能不正确。 fast-rcnn 是否只是简单的返回分数,应该由用户随意处理?
-
@carlosdc 例如,在tutorial.caffe.berkeleyvision.org/caffe-cvpr15-detection.pdf 的第 28 页上,边界框似乎已完成?
-
是的,它们是,这就是非最大抑制的作用。
-
@carlosdc 但在我的情况下,周围有数十个盒子,比如说,一辆高度重叠的同一辆车。它如何为每个对象确定一个最合适的边界框?
标签: computer-vision neural-network deep-learning caffe