【问题标题】:How do I know which spectrogram frames belong to which audio samples?我如何知道哪些频谱图帧属于哪些音频样本?
【发布时间】:2021-09-22 01:07:58
【问题描述】:

我一直在使用这个脚本:

spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)

获取一些立体声音乐音频的频谱图。我预计生成的频谱图的形状是 [2, 257, audio.shape[1]/32] 但是,事实并非如此。例如,大小为 [2, 199488](sr=24576)的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图(请注意,199488/32=6234)。这是为什么?以及如何将帧位置转换为样本位置?

【问题讨论】:

    标签: audio pytorch torchaudio


    【解决方案1】:

    center参数。

    是否在两侧填充waveform,使得t-th 帧在时间 t x hop_length 居中。 (默认:True

    因此,默认情况下,信号用零填充。填充长度可能是 (win_length - hop_length)。这最终使结果更长 (win_length - hop_length) / hop_length,在您的情况下为 7。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-07-09
      • 2017-11-06
      • 1970-01-01
      • 2014-08-05
      • 1970-01-01
      • 1970-01-01
      • 2012-12-14
      相关资源
      最近更新 更多