【发布时间】:2018-09-12 05:58:56
【问题描述】:
我有一个数据集,包含大约 5000 个类别的图像,但每个类别的图像数量从 20 到 2000 个不等,这是非常不平衡的。此外,图像的数量远远不足以从头开始训练模型。我决定对预训练模型进行微调,比如 Inception 模型。
但我不确定如何处理不平衡的数据。有几种可能的方法:
- 过采样:对少数类别进行过采样。但即使使用积极的图像增强技术,我们也可能无法处理过度拟合。
另外,如何从这么多类别的不平衡数据集中生成平衡批次?您对 TensorFlow 的这种管道机制有什么想法吗? - SMOTE:我认为它对于像图像这样的高维信号不是那么有效。
- 对每批的交叉熵损失进行加权。这可能对单批次有用,但不能处理整体不平衡。
对此有什么想法吗?任何反馈将不胜感激。
【问题讨论】:
标签: tensorflow deep-learning classification