【问题标题】:Speech recognition with LSTM with features extracted in MFCC在 MFCC 中提取特征的 LSTM 语音识别
【发布时间】:2016-09-23 11:47:51
【问题描述】:

研究深度神经网络,特别是 LSTM,我决定遵循这个链接中提出的想法:Building Speech Dataset for LSTM binary classification 构建分类器。

我有一个基于音频的,其中提取 MFCC 的特征,其中每个数组是 13x56 每个单词的每个音素。 训练数据是这样的:

X = [[phon1fram[1][1], phon1fram[1][2],..., phon1fram[1][56]], 
     [phon1fram[2][1], phon1fram[2][2],..., phon1fram[2][56]], ....   
     [phon1fram[15][1], phon1fram[15][2], ..., phon1fram[15][56] ] ]
     ...
     ...
     [[phon5fram[1][1], phon5fram[1][2],..., phon5fram[1][56]], ... ,
     [phon5fram[15][1], phon5fram[15][2], ..., phon5fram[15][56]] ]

在刻字中,第一帧标签肯定会被称为“中介”,而只有最后一帧实际上代表音素?

Y = [[0, 0, ..., 0],        #intermediary
     [0, 0, ..., 0], ... ,  #intermediary
     [1, 0, ..., 0]]        # is one phoneme
    [[0, 0, ..., 0], ...    #intermediary
     [0, 1, ..., 0]         # other phoneme

这真的是正确的吗?在第一次测试中,我执行的所有预期都倾向于将这个“中间人”标记为最普遍。可以使用其他方法吗?

【问题讨论】:

    标签: speech-recognition lstm mfcc


    【解决方案1】:

    我正在做同样的任务。我正在使用http://keras.io/layers/recurrent/ 来完成这项任务。使用带有theano 后端的keras 来完成这项任务。您可以按照以下步骤操作:

    1. 将 Mfcc 值存储在 TXT 文件中。
    2. 读取 TXT 文件并将所有值存储到 Numpy 数组中。
    3. 将此 numpy 数组传递给您的神经网络的输入。
    4. 在输入输入之前应用填充

    您可以使用超参数(batch_size、优化器、损失函数、序列大小)来评估结果。

    【讨论】:

    • 嘿伙计,如果可能的话,你能分享一下github repo吗,我正在尝试做一些非常相似的事情
    猜你喜欢
    • 1970-01-01
    • 2017-04-22
    • 2020-09-21
    • 2019-11-16
    • 1970-01-01
    • 2019-05-05
    • 2014-07-03
    • 2018-06-13
    • 1970-01-01
    相关资源
    最近更新 更多