【发布时间】:2019-04-26 20:55:01
【问题描述】:
我构建了一个简单的 CNN 单词检测器,当使用 1 秒 .wav 作为输入时,它能够准确地预测给定的单词。似乎是标准,我使用音频文件的 MFCC 作为 CNN 的输入。
但是,我的目标是能够将其应用于包含多个单词的较长音频文件,并让模型能够预测是否以及何时说出给定单词。我一直在网上搜索最好的方法,但似乎碰壁了,如果可以通过谷歌轻松找到答案,我真的很抱歉。
我的第一个想法是将音频文件切割成几个相互交叉的 1 秒长的窗口 -
然后将每个窗口转换为 MFCC,并将其用作模型预测的输入。
我的第二个想法是在尝试隔离每个单词时使用起始检测,如果单词小于 1 秒则添加填充,然后将这些作为模型预测的输入。
我离这儿很远吗?任何参考或建议将不胜感激。谢谢。
【问题讨论】:
标签: python keras speech-recognition librosa