【问题标题】:How to prepare a dataset for speech recognition如何为语音识别准备数据集
【发布时间】:2016-04-01 02:32:27
【问题描述】:

我需要训练一个双向 LSTM 模型来识别离散语音(从 0 到 9 的单个数字)我已经录制了 100 个说话者的语音。接下来我该怎么办? (假设我将它们拆分为单独的 .wav 文件,每个文件包含一个数字)我将使用 mfcc 作为网络的功能。

另外,如果我要使用支持 CTC(Connectionist Temporal Classification)的库,我想知道数据集的区别

【问题讨论】:

  • 嗨。你的模型是开源的,所以我可以检查一下吗?

标签: speech-recognition recurrent-neural-network unsupervised-learning


【解决方案1】:

您可以使用here提供的答案/指导

根据您用于创建 LSTM(pybrain、theano、keras)的库,您可以查看它们的文档。

我建议使用 Theano(Binary LSTM link) 或 Keras(Tutorial),因为它们很容易理解并且有据可查。

希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-11-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多