增加训练数据并不能减少 CNN 中的过拟合答案

【问题标题】：Increasing training data doesn't reduce overfitting in CNN增加训练数据并不能减少 CNN 中的过拟合
【发布时间】：2016-11-01 02:24:24
【问题描述】：

我正在研究一个 CNN 分类问题：
使用 CNN 将音频情绪分为 6 类（愤怒、厌恶、恐惧、快乐、悲伤、中性）。我正在使用 EMODB 数据集，输入特征是傅里叶变换 [256*36]。我的 CNN 网络有 3-4 个卷积层，每个卷积都有最大池化，外加一个全连接层。但是学习曲线显示训练和验证损失之间存在很大差距，表明严重的过度拟合。我能得到的最佳验证准确率始终在 75% 到 80% 之间。

learning curve 这是我得到的学习曲线之一。黑色和蓝色分别是训练准确率和损失。另外两个用于验证准确性和损失。即使训练损失为 0，验证结果也不会再改善。

我尝试扩充我的数据集，将 50% 的 dropout 添加到 fc 层，将 l2 正则化添加到 fc 层，并使用学习率衰减策略（如 caffe 中的“inv”）。但差距仍然存在。

是不是因为我的数据集太小了？
我总共有大约 500 个音频，并将其扩展到大约 6,000 个样本。但是当我将数据增加到 15000 时，差距仍然很大。 15,000 仍然是 CNN 的小数据集吗？

会不会是因为数据扩充过程引入了错误？
我的原始数据集包含大约 500 个不同长度的音频，从 1 秒到 6 秒不等。所以我只是随机抽取了1.2s的样本。持续时间越长，我得到的样本就越多。我现在可以有超过 15,000 个样本进行训练。我在想，对于长音频，1.2s的样本会丢失太多信息，可能无法代表对应情绪的特征。但这是我能想到的最好的方法，因为某些原因我不能使用 RNN 或 HMM 来处理数据。

会不会是我的特征计算出错了？（尽管我已经检查了好几次）我也尝试过 MFSC 特征 [120*40]，但是这两个特征集有类似的过拟合问题..

还是因为我的网络不够好？我认为更复杂的网络会引入更多的过拟合。但简单的网络并没有表现出良好的性能。

尽管我列出了许多过度拟合的原因，但我无法弄清楚哪些是影响性能的真正因素。有什么办法可以知道哪一部分出了问题？或者有什么减少过拟合的建议？

谢谢！

【问题讨论】：

您可以尝试使用学习曲线更清楚地诊断问题。 class.coursera.org/ml-003/lecture/64
您描述了如何生成训练数据。测试呢？它是从单独的录音中提取的，也被切成小块吗？录音之间有什么关系？它们来自不同的扬声器吗？不同时期？
@JohnYetter 是的，我使用了学习曲线。我的 x 轴是纪元数。验证准确率几乎保持在 0.7 到 0.8 左右，甚至在那之后下降。验证损失也是如此。我在帖子中添加了一个数字。
@lejlot 对于训练和验证，数据以相同的方式生成，但来自不同的音频。测试用的是middile 1.2s，精度接近validation精度。我还尝试从一个音频中裁剪几个 1.2 秒的样本，并将主要预测标签作为最终预测输出。精度可以提高一点，但还差得很远。这样我的测试音频是有限的。所有音频都是从同一数据集中随机挑选的。该数据集包含不同人的音频，每个人都重复几个带有不同情绪的句子。
有什么方法可以获得比较损失与训练集大小的学习曲线图，而不是训练时期？这通常是有启发性的。您提到您使用了正则化。这有多大帮助？最后，你能不能让一个人拿你的 1.2 秒集并分类一个合理的样本。 1.2 秒的信息量不是很多，而且由于它是从较长的剪辑中随机提取的，它可能不包含明确的情绪指示。如果人类 80% 的时间都正确，那么您可能会遇到剪辑格式的限制。

标签： machine-learning speech-recognition conv-neural-network lasagne audio-analysis

【解决方案1】：

您可以尝试在 CNN 中添加一些“dropout”层，看看它是否会减少过度拟合。 -- 文卡特

【讨论】：

您有任何证据支持您的主张吗？
我在 CNN 上工作并致力于我的研究，是的，我已经看到 dropout 层在我的几个设计中减少了过度拟合。 Plus dropouts 是一种正则化技术。 datascience.stackexchange.com/questions/22494/…。此链接中的几个答案也谈到了它。