对 YOLO 流程感到困惑答案

【问题标题】：Confused about YOLO Process对 YOLO 流程感到困惑
【发布时间】：2019-01-15 04:53:14
【问题描述】：

为了理解这个概念，我阅读了Mauricio Menegaz 写的这篇文章，并在 YouTube 上观看了 Deeplearning.ai 的 video，但我对 S x S x (B * 5 +C) 感到困惑）部分。我知道 S x S 代表网格大小，5 代表边界框的组件，C 代表类。 B 和锚盒一样吗？如果我只想检测一个类别（例如车牌），那是否意味着只有 1 个 B？

编辑在将图像输入神经网络之前，是否在图像上创建了边界框？

【问题讨论】：

标签： machine-learning computer-vision yolo

【解决方案1】：

B和anchor box一样吗？

是的，是的。 B 是锚框的数量

如果我只想检测一个类别（例如车牌），那是否意味着只有 1 个 B？

不，在这种情况下，C = 1。但是如果你事先知道你需要检测的对象的宽高比，并且这个比值在视点之间变化不大，你可能只需要匹配这个比值的锚框，所以在你的车牌的情况下，B 也可以是 1

但是如果您需要检测汽车，例如，您可能需要更多的锚框，因为不同视点之间汽车的宽/高比变化很大

【讨论】：

感谢您的意见！图像中的边界框是在图像发送到神经网络之前创建的，还是在通过神经网络之后创建的？
@Maning 你是说锚框吗？在通过神经网络发送图像之前，我们有锚框。您可以认为锚框（或先前框）是一种参数化网络输出的方法。然后将网络的输出解码以生成边界框
老实说，我无法区分它们，这是否意味着在通过神经网络发送图像之前将锚框放置在检测到的对象周围？非常抱歉，我真的有很多关于这件事的问题。
B 个锚框放置在图像中的每个网格单元中。边界框是通过这些锚框的偏移量来预测的。你可以在这里找到更多信息https://medium.com/@jonathan_hui/real-time-object-detection-with-yolo-yolov2-28b1b93e2088

【解决方案2】：

也许你可以看看这个实现： https://github.com/1991viet/Yolo-pytorch

【讨论】：