【发布时间】:2020-03-22 15:31:23
【问题描述】:
我正在尝试使用 librosa 创建一个 MFCC 图,但该图似乎不是很详细。目标是将此 MFCC 频谱图呈现给神经网络。我正在测试的音频文件大约 1 秒长,来自 Google Speech Commands 数据集。我的代码是:
WINDOW_SIZE = 20
NFFT=int((WINDOW_SIZE/1000)*16000)
samples, _ = librosa.load(f, sr=16000)
mfccs = librosa.feature.mfcc(y=samples[:16000], sr=16000, n_fft=NFFT, n_mfcc=40)
plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()
这是正在生成的 MFCC 频谱图:
【问题讨论】:
-
也许stackoverflow.com/a/58354627/942774 有帮助:在使用
specshow时指定采样率和跳数,否则会假定错误值。
标签: python conv-neural-network spectrogram librosa mfcc