【发布时间】:2014-11-17 06:50:28
【问题描述】:
我正在尝试获取音频文件的单向量特征表示,以用于机器学习任务(特别是使用神经网络进行分类)。我有计算机视觉和自然语言处理方面的经验,但我需要一些帮助来加快处理音频文件的速度。
目前有多种音频文件的特征描述符,但似乎 MFCC 最常用于音频分类任务。我的问题是:如何将 MFCC 表示为一个音频文件,它通常是一个矩阵(可能是系数),并将其转换为单个特征向量?我目前正在为此使用librosa。
我有一堆音频文件,但它们的形状各不相同:
for filename in os.listdir('data'):
y, sr = librosa.load('data/' + filename)
print filename, librosa.feature.mfcc(y=y, sr=sr).shape
213493.ogg (20, 2375)
120093.ogg (20, 7506)
174576.ogg (20, 2482)
194439.ogg (20, 14)
107936.ogg (20, 2259)
作为 CV 人员,我会做的是通过 k-means 量化这些系数,然后使用 scipy.cluster.vq 之类的东西来获得形状相同的向量,我可以将其用作我的 NN 的输入。这也是您在音频案例中会做的事情,还是有不同/更好的方法来解决这个问题?
【问题讨论】:
标签: python audio machine-learning