计算机视觉模型的训练/测试数据的格式是什么答案

【问题标题】：What is the format for the training/testing data for a Computer Vision model计算机视觉模型的训练/测试数据的格式是什么
【发布时间】：2020-01-14 19:41:26
【问题描述】：

我正在尝试构建一个 CV 模型来检测视频中的对象。我有大约 6 个视频，其中包含训练模型所需的内容。这些是我试图检测的车道、其他车辆等。

我很好奇用于训练模型的数据集的格式。我可以让每个视频的每一帧都变成图像，并创建一个大型图像存储库来训练，或者我可以直接使用这些视频。你认为哪种方式更好？

如果这不是直接的编程问题，我深表歉意。我正在尝试收集我的数据，但我无法下定决心。

【问题讨论】：

如果您打算使用tensorflow，那么您可以使用tf.data.Dataset 将这些视频预处理并存储为TFRecordDataset 结构。这可能需要更多的工作，但在tf 中更容易操作。 This 是关于 SO 预处理视频的一个答案。

标签： deep-learning computer-vision

【解决方案1】：

Yolo 版本 3 是一个很好的起点。经过训练的模型将有一个.weight 文件和一个.cfg 文件，可用于检测来自网络摄像头、计算机视频或带有opencv 的Android 中的对象。

在opencv python中，cv.dnn.readNetFromDarknet("yolov3_tiny.cfg", "CarDetector.weights")可以用来加载训练好的模型。

在android类似的代码中，

String tinyYoloCfg = getPath("yolov3_tiny.cfg", this);
String tinyYoloWeights = getPath("CarDetector.weights", this);
Net tinyYolo = Dnn.readNetFromDarknet(tinyYoloCfg, tinyYoloWeights);

函数参考可以在这里找到， https://docs.opencv.org/4.2.0/d6/d0f/group__dnn.html

您的视频帧需要使用生成 yolo 格式的边界框的工具进行注释，并且有很多可用的。为了训练自定义模型，这个存储库包含所有必要的信息， https://github.com/AlexeyAB/darknet

【讨论】：