【发布时间】:2019-04-18 03:21:44
【问题描述】:
我正在尝试使用 python 库分析歌曲音频,输出是一个 numpy 数组,该数组的大小非常大,因为 MFCC 是针对音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出约为 3-4MB。有没有办法将 N 帧信息缩减为单行特征?
)
【问题讨论】:
标签: python mfcc audio-analysis
我正在尝试使用 python 库分析歌曲音频,输出是一个 numpy 数组,该数组的大小非常大,因为 MFCC 是针对音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出约为 3-4MB。有没有办法将 N 帧信息缩减为单行特征?
)
【问题讨论】:
标签: python mfcc audio-analysis
一种常见的做法是将连续的帧分组到序列窗口中,计算每个纹理窗口的聚合统计信息,然后使用聚合统计信息再次对其进行汇总。
统计信息是按输入功能计算的(在您的情况下为 MFCC 频带)。 示例统计函数将是均值、标准差、最小值、最大值。 纹理大小可以在 1-60 秒之间。
见Low-level features and timbre, Juan Pablo Bello, MPATE-GE 2623 Music Information Retrieval
【讨论】: