【问题标题】:How to feed speech files into RNN/LSTM for speech recognition?如何将语音文件输入 RNN/LSTM 进行语音识别?
【发布时间】:2019-02-01 00:50:18
【问题描述】:

我正在研究 RNN/LSTM。我用 RNN 做了一个简单的项目,在其中我将文本输入到 RNN 中。但我不知道如何将语音输入 RNN 以及如何为循环网络预处理语音。我已经阅读了来自媒体和其他网站的许多文章。但我无法在网络中使用语音。您可以分享任何项目中的语音和 RNN/LSTM 或任何可以帮助我的项目。

【问题讨论】:

  • 我在查看 mycroft-precise 源时取得了一些成功。 Tensorflow 也有一些很好的教程。我自己正在寻找 FPGA 示例。像谷歌aiy套件。至少在我有时间的时候。

标签: machine-learning deep-learning lstm recurrent-neural-network


【解决方案1】:

您需要将原始音频信号转换为频谱图或其他更易于使用 RNN/LSTMS 处理的便捷格式。 This 中型博客应该会有所帮助。可以看this github repo实现。

【讨论】:

  • 我不明白我应该以矩阵形式或其他形式提供特征吗?