卷积神经网络的输入数据答案

【问题标题】：Input data for convolutional neural network卷积神经网络的输入数据
【发布时间】：2016-10-20 09:41:18
【问题描述】：

我正在尝试学习深度学习，特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在，据我了解，CNN 通常用于图像和对象识别，因此在使用音频时，人们经常使用频谱图（特别是梅尔频谱图）而不是时域中的信号。我的问题是，使用频谱图的图像（即 RGB 或灰度值）作为网络的输入是否更好，还是应该直接使用频谱图的 2d 幅度值？它甚至有什么不同吗？

谢谢。

【问题讨论】：

您可能会觉得这很有帮助：Convolutional Neural Network (CNN) for Audio.
感谢@rrao，我已经看过了，但它并没有真正回答我的问题。我也不同意您提到的答案，频谱图“丢弃”的唯一内容是相位信息。

标签： tensorflow deep-learning conv-neural-network

【解决方案1】：

频谱图是一个可爱的表示，特别是用于描述过程。从功能上讲，它只是对输入数据的简化，没有添加任何信息，并且失去了一点准确性——这可能无关紧要。预处理不会给您带来任何好处，因此只需使用 2d 数据并让 CNN 从那里获取东西。

【讨论】：

感谢@Prune！所以输入数据是指二维 STFT 矩阵，对吗？不是原始时域数据。
对。你可以用原始数据来做，但我不想考虑神经网络的复杂性和训练时间——绝对是一个 Q 学习问题！

【解决方案2】：

通常图像具有局部模式。这很自然，因此通过应用卷积窗口，我们可以尝试提取一些局部连通性特征。因此，如果您在时域或频域中使用频谱的一些图像，则没有问题。但令人惊奇的问题是，如果我们直接使用频谱数据会怎样？我看过一个演示文稿，他们将 CNN 应用于给出上下文的下一个单词预测。在那件事中，输入是词向量。更重要的是数字。因此他们使用了 CNN 层（矩形形状过滤器）来提取特征。因此，在这种情况下，如果数据具有某种自然生成模式，那是非常好的。

【讨论】：