如何将语音文件输入 RNN/LSTM 进行语音识别？

【问题标题】：How to feed speech files into RNN/LSTM for speech recognition?如何将语音文件输入 RNN/LSTM 进行语音识别？
【发布时间】：2019-02-01 00:50:18
【问题描述】：

我正在研究 RNN/LSTM。我用 RNN 做了一个简单的项目，在其中我将文本输入到 RNN 中。但我不知道如何将语音输入 RNN 以及如何为循环网络预处理语音。我已经阅读了来自媒体和其他网站的许多文章。但我无法在网络中使用语音。您可以分享任何项目中的语音和 RNN/LSTM 或任何可以帮助我的项目。

【问题讨论】：

我在查看 mycroft-precise 源时取得了一些成功。 Tensorflow 也有一些很好的教程。我自己正在寻找 FPGA 示例。像谷歌aiy套件。至少在我有时间的时候。

标签： machine-learning deep-learning lstm recurrent-neural-network

【解决方案1】：

您需要将原始音频信号转换为频谱图或其他更易于使用 RNN/LSTMS 处理的便捷格式。 This 中型博客应该会有所帮助。可以看this github repo实现。

【讨论】：

我不明白我应该以矩阵形式或其他形式提供特征吗？