【发布时间】:2021-01-03 08:02:42
【问题描述】:
我正在尝试测量电视内容的各种剪辑(范围从 ~2-40 秒)的“响度”。我对内容的相对响度感兴趣 - 人们在哪些场景中喊叫与窃窃私语、嘈杂的音乐与安静的场景等。
我认为这意味着我对捕获增益(输入响度)而不是音量(输出响度)感兴趣...
我用 Python 尝试了两种方法:
-
librosa 的 RMS:
np.mean(librosa.feature.rms(spectrogram, center=True).T, axis=0) -
pyloudnorm:(实现了 ITU-R BS.1770-4 响度算法 (LUFS))
meter = pyln.Meter(samplerate) loudness = meter.integrated_loudness(waveform)
当我比较两者的结果时,它们有时是一致的,但往往是不同的(同一篇文章显示的 RMS 相对较高,但响度较低,反之亦然)。更重要的是,虽然他们似乎都做对了一些事情,但似乎都不能非常准确地代表电视中的内容。我想知道是否需要采取一些步骤来过滤掉一些未被察觉但以某种方式影响这些指标的频率,或者我是否只是遗漏了一些重要的东西?
【问题讨论】:
标签: python audio volume spectrogram librosa