【问题标题】:Feature extraction for keyword spotting on long form audio using a CNN使用 CNN 对长格式音频进行关键字定位的特征提取
【发布时间】:2019-04-26 20:55:01
【问题描述】:

我构建了一个简单的 CNN 单词检测器,当使用 1 秒 .wav 作为输入时,它能够准确地预测给定的单词。似乎是标准,我使用音频文件的 MFCC 作为 CNN 的输入。

但是,我的目标是能够将其应用于包含多个单词的较长音频文件,并让模型能够预测是否以及何时说出给定单词。我一直在网上搜索最好的方法,但似乎碰壁了,如果可以通过谷歌轻松找到答案,我真的很抱歉。

我的第一个想法是将音频文件切割成几个相互交叉的 1 秒长的窗口 -

然后将每个窗口转换为 MFCC,并将其用作模型预测的输入。

我的第二个想法是在尝试隔离每个单词时使用起始检测,如果单词小于 1 秒则添加填充,然后将这些作为模型预测的输入。

我离这儿很远吗?任何参考或建议将不胜感激。谢谢。

【问题讨论】:

    标签: python keras speech-recognition librosa


    【解决方案1】:

    将音频剪切到分析窗口中是可行的方法。通常使用一些重叠。可以先计算 MFCC 特征,然后使用整数帧进行拆分,使您最接近所需的窗口长度 (1s)。

    示例代码见How to use a context window to segment a whole log Mel-spectrogram (ensuring the same number of segments for all the audios)?

    【讨论】:

      猜你喜欢
      • 2021-07-08
      • 1970-01-01
      • 2021-10-23
      • 1970-01-01
      • 2019-08-26
      • 1970-01-01
      • 2016-11-10
      • 2014-01-10
      • 2013-01-03
      相关资源
      最近更新 更多