【发布时间】:2012-08-12 22:03:09
【问题描述】:
我正在工作/研究一个用于教育目的的项目构想,并想做有关语音识别的项目,没什么大不了的,只是介绍一下我在该领域的起步。基本上,项目和算法将输入一个 (.wav) 文件,然后识别说话的人是说“是”还是说“否”。我正在寻找使用线性预测编码。
基本上,在我的脑海中,我正在考虑以下算法:
- 将 .wav(原始数据)读入向量中
- 将向量分成大小相等的块
- 针对特定特征处理每个块
- 找出模型最有可能与生成的音素字符串匹配的单词。
然后我想使用相关性等相似性度量来找到正确的电话。
所以,基本上,在读入数据文件之后,并分成块。它应该/将包含这样的内容:
rawdata =
[0] => 'Y',
[1] => 'E',
[2] => 'S'
或者将包含频率结果,然后可以与电话进行比较。
我的问题是,这看起来像是解决问题的好算法吗..
我的下一个问题:
当我尝试将 .wav 文件读入内存时,我得到(某种)以下结果..
20 30 10 30 40 50 .. 20 20 .. 10 20 .. 60 40
10 20 30 40 50 60 ... .. . . . .
它们都是整数值,所以,一旦我获取了所有标题信息.. 剩下的数据就是我需要转换成正确的介质然后这就是数据..?我有点困惑。
希望有人可以帮助我,并且,我已经正确地写出了问题。谢谢。
【问题讨论】:
-
为什么我收到了负面反馈?!?怎么不清楚??神
-
因为你的问题过于宽泛了。
-
我不知道你的C++水平是多少,如果你是高手请忽略这条评论,但根据我的经验,在Matlab中整理一个算法,然后转向C++。信号和图像处理在 Matlab 中比在 C++ 中更容易和更短。
-
您是在询问有关语音识别和音频 DSP 的教科书的许多随机章节的内容。所以先去读几本关于这个主题的书吧。
-
相信你的问题属于dsp.stackexchange.com/faq
标签: c++ algorithm math fft speech