使用 CNN 对长格式音频进行关键字定位的特征提取答案

【问题标题】：Feature extraction for keyword spotting on long form audio using a CNN使用 CNN 对长格式音频进行关键字定位的特征提取
【发布时间】：2019-04-26 20:55:01
【问题描述】：

我构建了一个简单的 CNN 单词检测器，当使用 1 秒 .wav 作为输入时，它能够准确地预测给定的单词。似乎是标准，我使用音频文件的 MFCC 作为 CNN 的输入。

但是，我的目标是能够将其应用于包含多个单词的较长音频文件，并让模型能够预测是否以及何时说出给定单词。我一直在网上搜索最好的方法，但似乎碰壁了，如果可以通过谷歌轻松找到答案，我真的很抱歉。

我的第一个想法是将音频文件切割成几个相互交叉的 1 秒长的窗口 -

然后将每个窗口转换为 MFCC，并将其用作模型预测的输入。

我的第二个想法是在尝试隔离每个单词时使用起始检测，如果单词小于 1 秒则添加填充，然后将这些作为模型预测的输入。

我离这儿很远吗？任何参考或建议将不胜感激。谢谢。

【问题讨论】：

【解决方案1】：

将音频剪切到分析窗口中是可行的方法。通常使用一些重叠。可以先计算 MFCC 特征，然后使用整数帧进行拆分，使您最接近所需的窗口长度 (1s)。

【讨论】：