【发布时间】:2019-10-27 01:57:41
【问题描述】:
我正在使用 CNN 解决图像分类问题。我有一个包含重复图像的图像数据集。当我用这些数据训练 CNN 时,它已经过拟合了。因此,我需要删除那些重复项。
【问题讨论】:
-
如果这是一个小数据集,您可以使用手动复制的图像删除。如果只有少量重复且大量图像,则不会真正影响您的学习算法。在训练你的卷积网络之前,必须删除重复的图像。如果有数千张图像,并且您找不到带有 ID 或名称的重复图像,您可以使用欧几里德距离将给定的目标图像与所有其他图像进行比较,并删除欧几里德距离 = 0 的图像。这可能需要很多计算资源,也许你可以找到更有效的方法来做到这一点
标签: python image-processing keras deep-learning conv-neural-network