【发布时间】:2013-05-21 07:47:56
【问题描述】:
我目前正在执行一个与语音识别相关的项目,其中鼠标事件(如右键单击、左键单击、双击 .. 等)将作为语音命令给出。因此,作为第一步,我的主管告诉我使用梅尔频率倒谱系数提取每个语音命令的特征,并使用 LIBSVM 格式将这些提取的特征存储在文本文件中。我已经使用互联网上的一些参考实现了 MFCC。但我不确定这在哪里是正确的。我不确定 MFCC 的输出。当我说“正确”时,我的程序给出了这样的结果
e.g -15.211534 8.230449 2.150475 4.000576 -0.037819 -1.083192 0.102314 0.232710 -0.813507 -0.349909 0.850858
- 谁能解释一下 MFCC 的输出之王应该得到什么?
- 如何以 LIBSVM 格式存储从 MFCC 提取的特征。
- 谁能帮我找到 MFCC 的正确数学实验室实现来解决我的问题。
【问题讨论】:
标签: speech-recognition libsvm speech feature-extraction mfcc