如何为深度学习训练数据集创建地面实况边界框？答案

【问题标题】：How are ground truth bounding boxes created for a deep learning training dataset?如何为深度学习训练数据集创建地面实况边界框？
【发布时间】：2020-01-23 04:22:06
【问题描述】：

我正在做一个项目，我想使用掩码 RCNN 来识别一组图像中的对象。但是，我很难理解如何为地面实况数据创建边界框（编码像素）。谁能指出我正确的方向或进一步向我解释？

【问题讨论】：

@AMC “边界框是如何定义和创建的”是一个非常明确的编程问题。这当然是实用且可以回答的。我认为这个问题也不属于明确禁止的类别：这不是家庭作业，也不是“我的代码不起作用”等。您认为违反了哪些规则？

标签： python deep-learning faster-rcnn

【解决方案1】：

边界框通常是手工标记的。大多数深度学习人员使用单独的应用程序进行标记。我相信这个包很受欢迎：

https://github.com/AlexeyAB/Yolo_mark

我为标记开发了自己的 RoR 解决方案，因为它有助于将工作分配给几个人。如果您想看一下，该存储库是开源的：

https://github.com/asfarley/imgclass

我认为将其称为“编码像素”有点误导。边界框是带标签的矩形数据类型，这意味着它们完全由类型（汽车、公共汽车、卡车）和矩形角的 (x,y) 坐标定义。

定义边界框的软件通常包含一个图像显示元素，以及允许用户在 UI 上拖动边界框的功能。我的应用程序使用单选按钮列表来选择对象类型（汽车、公共汽车等）；然后用户绘制一个边界框。

完全标记图像的结果是一个文本文件，其中每一行代表一个边界框。您应该查看训练算法的库文档，以准确了解输入边界框所需的格式。

在我自己的应用程序中，我开发了一些功能来比较来自不同用户的边界框。在任何大型 ML 工作中，您都可能会遇到一些错误标记的图像，因此您确实需要一个工具来识别它，因为它会严重降低您的结果。

【讨论】：

感谢您提供的所有信息！您的应用程序看起来很棒。我会试一试。感谢您的帮助
@DominickAugustine 不客气，如果您有任何问题，请随时在 Github 上提交问题。