mfcc 特征大小如何影响循环神经网络答案

【问题标题】：How does mfcc feature size affect recurent neural networkmfcc 特征大小如何影响循环神经网络
【发布时间】：2017-05-24 11:05:47
【问题描述】：

所以我正在学习机器学习，想知道 mfcc 特征大小对 RNN（递归神经网络）有何影响？

使用 librosa，我提取了 mfcc，然后提取了 delta 系数，之后我得到了维度为 [13, sound_length] 的数组

用python提取mfcc和delta系数的代码：（y - 声音文件数据，sr - y的长度）

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)

所以理论上如果我想用这种数据和 n_mfcc=39 的数据训练网络。谁会更好，为什么？（忽略所有其他超参数）我只想知道这个参数如何影响 RNN 的理论。

【问题讨论】：

【解决方案1】：

MFCCs 是Mel 缩放（非线性）频谱的DCT 的系数。换句话说，它们捕捉梅尔光谱中周期性变化的幅度。在音乐分析中，这通常用于描述一段音乐的timbre。系数的指数越低，（梅尔谱的周期性变化的）频率越低。

简单地说：较低的指数/系数通常更重要。

JPEG 图像文件格式和 MP3 也是如此——较高的 DCT 系数被丢弃，因为它们描述了通常被认为不重要的较高频率。

因此，更少的系数意味着您可以使用更小的 RNN。但是，您将丢失那些较高频率中包含的信息（如上所述，这些信息通常被认为不是很重要）。这是一个收益递减的游戏：在某些时候更多的系数只是意味着更多的输入，但不一定是更好的结果。

AFAIK，在音乐信息检索（MIR）中，通常使用前 13 个系数。但我也看到过使用前 20 个的论文。

在用于 MIR 之前，MFCC 用于语音识别。

【讨论】：