librosa 产生“未详细”的 MFCC 频谱图答案

【问题标题】：librosa producing "undetailed" MFCC spectrogramlibrosa 产生“未详细”的 MFCC 频谱图
【发布时间】：2020-03-22 15:31:23
【问题描述】：

我正在尝试使用 librosa 创建一个 MFCC 图，但该图似乎不是很详细。目标是将此 MFCC 频谱图呈现给神经网络。我正在测试的音频文件大约 1 秒长，来自 Google Speech Commands 数据集。我的代码是：

WINDOW_SIZE = 20
NFFT=int((WINDOW_SIZE/1000)*16000)

samples, _ = librosa.load(f, sr=16000) 

mfccs = librosa.feature.mfcc(y=samples[:16000], sr=16000, n_fft=NFFT, n_mfcc=40)

plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()

这是正在生成的 MFCC 频谱图：

【问题讨论】：

也许stackoverflow.com/a/58354627/942774 有帮助：在使用specshow 时指定采样率和跳数，否则会假定错误值。

标签： python conv-neural-network spectrogram librosa mfcc

【解决方案1】：

与其他系数相比，第 0 个系数具有更多的能量，因此其他波段的差异在图中表现得不是很好。

您可能希望对此进行归一化，以使所有系数都处于相同的范围内。您可以计算每个系数的平均值和标准差，然后通过减去平均值并除以标准差来进行标准化。这可以在每个剪辑中完成，也可以在整个训练集中完成。

【讨论】：