在 YOLO 中标注训练数据答案

【问题标题】：Label training data in YOLO在 YOLO 中标注训练数据
【发布时间】：2019-07-30 14:38:06
【问题描述】：

我刚开始接触 CNN 和计算机视觉，所以我开始研究对象检测算法，我已经阅读了 Yolov1 的论文，我正在尝试使用从头开始实现代码tensorflow（我知道这会很困难，但我觉得我可以通过这种方式学到更多东西），但是我对训练数据格式有疑问。

根据 YOLOv1，如果我想识别 3 个图像，标签应该是这样的：

[Objectness,x,y,W,H,c1,c2,c3]

其中 c1、c2、c3 表示类的数量，在本例中为 3（例如人类、自行车、汽车) 和 Objectness 表示有对象的置信度1 如果有对象，0 表示没有对象。 .

使用上面的图像作为参考，我是否需要为这个特定的图像标记所有 空单元格？

1st cell, there is no object here    = [0,?,?,?,?,?,?,?]
2nd cell, there is no object here    = [0,?,?,?,?,?,?,?]
3rd cell, there is no object here    = [0,?,?,?,?,?,?,?]
4th cell, there is a black car here  = [1,x,y,W,G,0,0,1]
5th cell, there is no object here    = [0,?,?,?,?,?,?,?]
6th cell, there is a silver car here = [1,x,y,W,G,0,0,1]
7th cell, there is no object here    = [0,?,?,?,?,?,?,?]
8th cell, there is no object here    = [0,?,?,?,?,?,?,?]
9th cell, there is no object here    = [0,?,?,?,?,?,?,?]

或者只是包含对象的 2 个标签

4th cell, there is a black car here  = [1,x,y,W,G,0,0,1]
6th cell, there is a silver car here = [1,x,y,W,G,0,0,1]

【问题讨论】：

标签： tensorflow neural-network conv-neural-network yolo

【解决方案1】：

我认为您不应该自己标记每个单元格。如果你以AlexeyAB 为例，你可以看到每行注释应该包含 5 个元素：

<object-class> <x_center> <y_center> <width> <height>

具有相对值。将图像划分为单元格并计算对象性分数应该在程序中进行。

您提到的标记[Objectness,x,y,W,H,c1,c2,c3] 是在每个单元格创建的张量，然后用于训练暗网网络。

【讨论】：

看 Andrew 对这个视频的 NG 解释：youtube.com/watch?v=9s_FpMpdYW8 在 1:02 分钟他提到要构建训练集，你要经过细胞，这就是为什么我很困惑......跨度>
是的，但是在手动注释的情况下，您应该只在每个对象周围绘制一个边界框并设置其标签。然后在程序中计算张量（基于注释等），然后将它们提供给模型进行训练。
@SalvadorMolina Andrew Ng 教授解释了一般的 YOLO 算法，以及如何在 yolo 算法中计算坐标、类、概率等。但这并不意味着您必须以这种方式注释您的数据。 Yolo 接受上面 Hadi 解释过的格式。
@gameon67 让我印象深刻的是，他从字面上说了以下内容：“要构建训练集，您需要遍历这 9 个网格单元中的每一个以形成目标向量 y”......如果您查看图像，那一刻的目标向量 y 具有我之前提到的值，因此，在我看来，您必须添加“objectness”分数才能让网络了解何时存在对象，所以我想我的下一个问题是，我们如何从训练标签中知道该单元格中是否存在对象？
@SalvadorMolina 检查这个：towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b 特别是在 yolo 损失函数部分。这个概念与其他 CNN 和神经网络相同