将 MFCC 和梅尔谱图与 CNN 结合使用答案

【问题标题】：Using MFCCs and Mel-Spectrograms with CNN将 MFCC 和梅尔谱图与 CNN 结合使用
【发布时间】：2021-10-27 13:44:27
【问题描述】：

我想得到一些反馈，为什么在许多研究论文中研究人员通过卷积神经网络 (CNN) 传递 MFCC？本质上，CNN 本身就是一个特征提取过程。

关于为何普遍使用此过程的任何提示和建议。

谢谢！

【问题讨论】：

【解决方案1】：

MFCC 模拟人耳对声音的非线性感知，它近似于人类听觉系统的反应。因此，MFCC被广泛应用于语音识别。

虽然 CNN 用于特征提取，但原始音频信号通常不用作 CNN 的输入。其原因是音频信号天生就容易受到噪声影响，并且经常被对预期应用无用的频带污染。因此，通常的做法是对信号进行预处理以去除噪声并通过带通滤波器去除不相关的频带，然后从中提取相关特征。这些特征可以是时域特征；例如幅度包络、均方根能量或过零率或频域特征；例如波段能量比、光谱质心和光谱通量，或时频表示；如谱图和梅尔谱图。

然后使用 CNN 在这些提取的特征中提取局部模式。特别是对于时频表示，使用 2D CNN 来提取特征，类似于图像识别应用中的特征提取过程。

【讨论】：