【问题标题】:Mel Frequency cepstral coefficient - Speech feature extractionMel 频率倒谱系数 - 语音特征提取
【发布时间】:2013-05-21 07:47:56
【问题描述】:

我目前正在执行一个与语音识别相关的项目,其中鼠标事件(如右键单击、左键单击、双击 .. 等)将作为语音命令给出。因此,作为第一步,我的主管告诉我使用梅尔频率倒谱系数提取每个语音命令的特征,并使用 LIBSVM 格式将这些提取的特征存储在文本文件中。我已经使用互联网上的一些参考实现了 MFCC。但我不确定这在哪里是正确的。我不确定 MFCC 的输出。当我说“正确”时,我的程序给出了这样的结果

e.g -15.211534  8.230449    2.150475    4.000576    -0.037819   -1.083192   0.102314    0.232710    -0.813507   -0.349909   0.850858
  1. 谁能解释一下 MFCC 的输出之王应该得到什么?
  2. 如何以 LIBSVM 格式存储从 MFCC 提取的特征。
  3. 谁能帮我找到 MFCC 的正确数学实验室实现来解决我的问题。

【问题讨论】:

    标签: speech-recognition libsvm speech feature-extraction mfcc


    【解决方案1】:

    在尝试分析语音时,大多数现代解决方案都使用一系列 MFCC 系数,而不仅仅是一个。一般来说,获得 MFCC 是这样的:

    complexSpectrum = fft(signal)
    powerSpectrum = abs(complexSpectrum) ** 2
    filteredSpectrum = melFilterBank(powerSpectrum)
    logSpectrum = log(filteredSpectrum)
    dctSpectrum = dct(logSpectrum)
    

    您在 30 毫秒的窗口上执行此操作,以 10 毫秒的步长沿信号滑动。

    至于具体实现,可以参考Spro中用C编写的代码(sfbcep util)或Sphinx中的代码,如果你觉得Java更熟悉的话。

    【讨论】:

      猜你喜欢
      • 2023-04-04
      • 2010-12-09
      • 2014-05-23
      • 1970-01-01
      • 2010-12-09
      • 2012-10-18
      • 1970-01-01
      • 2018-01-24
      • 1970-01-01
      相关资源
      最近更新 更多