我如何知道哪些频谱图帧属于哪些音频样本？

【问题标题】：How do I know which spectrogram frames belong to which audio samples?我如何知道哪些频谱图帧属于哪些音频样本？
【发布时间】：2021-09-22 01:07:58
【问题描述】：

我一直在使用这个脚本：

spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)

获取一些立体声音乐音频的频谱图。我预计生成的频谱图的形状是 [2, 257, audio.shape[1]/32] 但是，事实并非如此。例如，大小为 [2, 199488]（sr=24576）的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图（请注意，199488/32=6234）。这是为什么？以及如何将帧位置转换为样本位置？

【问题讨论】：

标签： audio pytorch torchaudio

【解决方案1】：

见center参数。

是否在两侧填充waveform，使得t-th 帧在时间 t x hop_length 居中。（默认：True）

因此，默认情况下，信号用零填充。填充长度可能是 (win_length - hop_length)。这最终使结果更长 (win_length - hop_length) / hop_length，在您的情况下为 7。

【讨论】：