如何确定 SpeechRecognitionEngine 识别词的位置？答案

【问题标题】：How to determine position of recognized words of SpeechRecognitionEngine?如何确定 SpeechRecognitionEngine 识别词的位置？
【发布时间】：2011-12-07 01:06:13
【问题描述】：

我正在探索SpeechRecognitionEngine 的功能，我的最终目标是输入一个 WAV 文件和该 WAV 文件的转录，并输出 WAV 文件中开头（理想情况下是结尾）的位置每个单词。

我可以让引擎成功识别短语，但我无法理解如何在单词开始时检索音频位置，而不是在识别假设或识别时等。

如果您好奇这是什么意思，那就是自动化口型同步动画工作流程。

感谢您的宝贵时间。

【问题讨论】：

您能否请教一下您是如何让引擎识别该短语的？我正在尝试做类似的事情，并且几乎被卡住了。提前感谢您的帮助:)
我使用了一个GrammarBuilder，它是从一个包含我想识别的单词的字符串数组创建的，以创建一个Grammar 对象，我使用LoadGrammar 方法将其加载到SpeechRecognitionEngine 中。跨度>

标签： c# speech-recognition

【解决方案1】：

正确的音频到文本对齐是一项需要不同于语音识别的特定算法的任务。您可以使用 ASR 引擎模拟一些对齐功能，但效果很好。

对于对齐算法的实现，您可以查看 CMUSphinx 语音识别工具包：

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

http://www.bluevincent.com/2011/02/speech-to-text-using-java.html

或者您可以尝试像 Nexiwave 提供的商业公司服务

http://nexiwave.com/index.php/applications/transcription-timestamping

【讨论】：

谢谢，我会调查一下 Sphinx。