【发布时间】:2015-08-14 01:25:42
【问题描述】:
假设我有一个包含大约 350 张正面图像和 400 多张负面图像的数据集。它们的大小不一样。它们的尺寸也大于 640x320。
我应该怎么做才能创建更好的数据集?我需要图像更小吗?如果是,为什么?
我应该对数据集应用一些规范化吗?应该是什么(对比度、降噪)?
我可以使用现有的数据集创建更大的数据集吗?如果是,怎么做?
提前致谢!
【问题讨论】:
-
1. “更好的数据集”的单位是什么?图像不必更小,它们可能会更小。 2. 你可能会也可能不会。 3. 你可能会也可能不会。你看,这完全取决于你正在处理什么样的数据。
-
您必须隔离这些图像的对象,以便在每个图像中基本上只呈现对象,居中且大小相同。应该有一些背景,但不要太多。因此,通常只有 500 张图像在该图像中的“某处”存在对象是不够的。对于尺寸,您应该选择要检测或可检测的最小尺寸。看看 INRIA 人类数据库,他们提供“原始图像”和“标准化训练数据集”,所以你可以得到一个印象:pascal.inrialpes.fr/data/human
标签: opencv dataset computer-vision svm training-data