Yolo 或 Faster RCNN 中的锚框或边界框答案

【问题标题】：anchor box or bounding boxes in Yolo or Faster RCNNYolo 或 Faster RCNN 中的锚框或边界框
【发布时间】：2018-10-31 05:41:38
【问题描述】：

我不知道锚框和边界框或提案区域之间的区别。我对这些定义感到困惑。而且我不知道检测模型中这些框的含义，因为默认长度永远不会改变！最后，我混淆了 RCNN 系列和 Yolo 系列都输出预测框位置(x,y,w,h) 的事实。或者输出增量位置(ground truth_x - predicted_x)/prediction_w？

【问题讨论】：

标签： computer-vision object-detection yolo

【解决方案1】：

边界框 边界框是由网络预测的框。这些预测框被覆盖在输入图像上，以便您可以直观地了解预测检测到的矩形的位置和形状。也就是说，它们是您可以在this youtube video 中看到的矩形。

锚框我们可以对边界框的形状进行一些假设。例如，如果我们想检测人类，我们应该用一些垂直的矩形框来搜索人类。它们是锚盒。锚框在训练和预测之前作为一些数字的列表被馈送到网络，这是一系列宽度和高度对：

锚点 = [1.08, 1.19, 3.42, 4.41, 6.63, 11.38, 9.42, 5.11, 16.62, 10.52]

上面的这个列表定义了 5 个锚框。我们可以向网络提供任意数量的锚框。

这些值是通过一些统计程序从训练数据中确定的。

【讨论】：

我们应该定义多少对锚点？对的数量是否必须等于类的数量？或者我们可以有更多的配对？
@Meisam 不，它不需要等于类的数量。即使对于一类对象检测，如果您认为此类对象可能具有不同的形状或大小，您也可以定义许多锚框。相反，如果所有类的对象具有相似的形状和大小，您可以只使用一对锚点来训练模型。

【解决方案2】：

Anchor Boxes：预定义的地标矩形，用于边界框拾取和使用偏移量来为检测到的对象提供位置

边界框：检测到的对象相对于锚框的预测矩形

基本上，这个想法可与 Snapchat 相机等对象检测模型中使用的地标相媲美。根据自拍肖像的特征，在图像的特定区域为网络预先确定一组节点，网络学习如何在对某些应用过滤器或掩码之前相对于输入网络的不同面部来偏移节点视觉m*sturbation真正激发用户的兴趣

【讨论】：