【问题标题】:How does mfcc feature size affect recurent neural networkmfcc 特征大小如何影响循环神经网络
【发布时间】:2017-05-24 11:05:47
【问题描述】:

所以我正在学习机器学习,想知道 mfcc 特征大小对 RNN(递归神经网络)有何影响?

使用 librosa,我提取了 mfcc,然后提取了 delta 系数,之后我得到了维度为 [13, sound_length] 的数组

用python提取mfcc和delta系数的代码:(y - 声音文件数据,sr - y的长度)

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)

所以理论上如果我想用这种数据和 n_mfcc=39 的数据训练网络。谁会更好,为什么? (忽略所有其他超参数)我只想知道这个参数如何影响 RNN 的理论。

【问题讨论】:

  • 我不认为增量特征(本质上是一阶导数)是必要的,因为 RNN 应该能够自行学习它们。它们可能对隐马尔可夫模型 (HMM) 更重要。
  • 你好@Nikas 你能使用 mfcc 来喂给 RNN 吗?有没有机会分享你的代码 sn-ps?谢谢

标签: python machine-learning recurrent-neural-network mfcc librosa


【解决方案1】:

MFCCsMel 缩放(非线性)频谱的DCT 的系数。换句话说,它们捕捉梅尔光谱中周期性变化的幅度。在音乐分析中,这通常用于描述一段音乐的timbre。系数的指数越低,(梅尔谱的周期性变化的)频率越低。

简单地说:较低的指数/系数通常更重要。

JPEG 图像文件格式和 MP3 也是如此——较高的 DCT 系数被丢弃,因为它们描述了通常被认为不重要的较高频率。

因此,更少的系数意味着您可以使用更小的 RNN。但是,您将丢失那些较高频率中包含的信息(如上所述,这些信息通常被认为不是很重要)。这是一个收益递减的游戏:在某些时候更多的系数只是意味着更多的输入,但不一定是更好的结果。

AFAIK,在音乐信息检索(MIR)中,通常使用前 13 个系数。但我也看到过使用前 20 个的论文。

在用于 MIR 之前,MFCC 用于语音识别。

B. Logan. "Mel frequency cepstral coefficients for music modeling." In International Symposium on Music Information Retrieval (ISMIR 2000), 2000.

McFee, Brian, and Gert RG Lanckriet. "Heterogeneous Embedding for Subjective Artist Similarity." ISMIR 2009, 2009.

【讨论】:

  • 只是想说这是一个非常好的答案,尤其是第一段!
猜你喜欢
  • 2015-11-25
  • 2021-11-14
  • 1970-01-01
  • 2017-06-14
  • 2018-01-22
  • 2017-02-19
  • 2020-05-03
  • 2023-03-22
  • 2011-07-30
相关资源
最近更新 更多