【发布时间】:2016-10-20 09:41:18
【问题描述】:
我正在尝试学习深度学习,特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在,据我了解,CNN 通常用于图像和对象识别,因此在使用音频时,人们经常使用频谱图(特别是梅尔频谱图)而不是时域中的信号。我的问题是,使用频谱图的图像(即 RGB 或灰度值)作为网络的输入是否更好,还是应该直接使用频谱图的 2d 幅度值?它甚至有什么不同吗?
谢谢。
【问题讨论】:
-
您可能会觉得这很有帮助:Convolutional Neural Network (CNN) for Audio.
-
感谢@rrao,我已经看过了,但它并没有真正回答我的问题。我也不同意您提到的答案,频谱图“丢弃”的唯一内容是相位信息。
标签: tensorflow deep-learning conv-neural-network