【问题标题】:librosa producing "undetailed" MFCC spectrogramlibrosa 产生“未详细”的 MFCC 频谱图
【发布时间】:2020-03-22 15:31:23
【问题描述】:

我正在尝试使用 librosa 创建一个 MFCC 图,但该图似乎不是很详细。目标是将此 MFCC 频谱图呈现给神经网络。我正在测试的音频文件大约 1 秒长,来自 Google Speech Commands 数据集。我的代码是:

WINDOW_SIZE = 20
NFFT=int((WINDOW_SIZE/1000)*16000)

samples, _ = librosa.load(f, sr=16000) 

mfccs = librosa.feature.mfcc(y=samples[:16000], sr=16000, n_fft=NFFT, n_mfcc=40)

plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()

这是正在生成的 MFCC 频谱图:

【问题讨论】:

标签: python conv-neural-network spectrogram librosa mfcc


【解决方案1】:

与其他系数相比,第 0 个系数具有更多的能量,因此其他波段的差异在图中表现得不是很好。

您可能希望对此进行归一化,以使所有系数都处于相同的范围内。您可以计算每个系数的平均值和标准差,然后通过减去平均值并除以标准差来进行标准化。这可以在每个剪辑中完成,也可以在整个训练集中完成。

【讨论】:

    猜你喜欢
    • 2021-03-25
    • 1970-01-01
    • 2020-06-23
    • 1970-01-01
    • 2020-03-03
    • 1970-01-01
    • 2020-06-08
    • 2021-07-30
    • 2023-02-14
    相关资源
    最近更新 更多