【问题标题】:Reduce MFCC output减少 MFCC 输出
【发布时间】:2019-04-18 03:21:44
【问题描述】:

我正在尝试使用 python 库分析歌曲音频,输出是一个 numpy 数组,该数组的大小非常大,因为 MFCC 是针对音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出约为 3-4MB。有没有办法将 N 帧信息缩减为单行特征?

)

【问题讨论】:

    标签: python mfcc audio-analysis


    【解决方案1】:

    一种常见的做法是将连续的帧分组到序列窗口中,计算每个纹理窗口的聚合统计信息,然后使用聚合统计信息再次对其进行汇总。

    统计信息是按输入功能计算的(在您的情况下为 MFCC 频带)。 示例统计函数将是均值、标准差、最小值、最大值。 纹理大小可以在 1-60 秒之间。

    Low-level features and timbre, Juan Pablo Bello, MPATE-GE 2623 Music Information Retrieval

    【讨论】:

      猜你喜欢
      • 2017-08-17
      • 1970-01-01
      • 2019-02-13
      • 1970-01-01
      • 1970-01-01
      • 2013-10-27
      • 2020-01-14
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多