【发布时间】:2016-07-05 03:04:39
【问题描述】:
我读到,在使用 CNN 时,每个类的样本数量应该大致相等。我正在做二进制分类,从背景中检测行人,所以这两个类别是行人和背景(实际上不是行人)。
如果我在训练中加入硬负样本挖掘,如果我得到很多误报,我最终会得到比正样本更多的负样本。
1) 这样可以吗?
2) 如果不是,我该如何解决这个问题?
3) 用负样本多于正样本来训练 CNN 的后果是什么?
4) 如果负样本多于正样本是可以的,是否有我不应该超过的最大限制?就像例如。我的负样本不应该是正样本的 3 倍。
5) 我可以通过抖动来增加我的正样本,但是我应该为每张图像创建多少额外的样本?有“过分”吗?就像我从 2000 个阳性样本开始,有多少额外的样本太多了?通过jittering从2k个样本中生成总共100k个样本是不是太多了?
【问题讨论】:
标签: machine-learning neural-network conv-neural-network