【发布时间】:2018-06-24 07:58:43
【问题描述】:
我正在寻找有关动态时间规整 (DTW) 的一些建议。
我有一个 Python 脚本,可以从各种长度的 .WAV 文件中提取梅尔频率倒谱系数 (MFCC) 特征向量。特征向量是包含 12 个 MFCC 的数组的不同长度的数组。
例如,一个 .WAV 文件可以由包含 10 组 12 个特征向量的数组表示,而另一个 .WAV 文件可以由一个包含 20 组 12 个特征向量的数组表示。
我打算使用 DTW 来比较两个数组数组,但我不确定如何。我理解 DTW 的概念,如果数组中包含的特征向量是单个数字,那么实现它就没有问题,我的困惑是因为它们是数组。
Tl;dr:如何使用 DTW 比较两个数组?
编辑:我已阅读this 的问题,但无济于事。
非常感谢, 亚当
【问题讨论】:
-
这个项目的文档可以帮助你:github.com/talcs/simpledtw
标签: audio speech-recognition dynamic-programming mfcc dtw