【发布时间】:2015-08-03 08:20:02
【问题描述】:
据我所知,大多数语音识别实现都依赖于二进制文件,其中包含他们试图“识别”的语言的声学模型。
那么人们是如何编译这些模型的呢?
一个人可以手动转录很多演讲,但这需要很多时间。 即便如此,当给定一个包含一些语音的音频文件和一个文本文件中的完整转录时,单个单词的发音仍然需要以某种方式分开。为了匹配音频的哪些部分与文本相对应,仍然需要语音识别。
这是如何收集的?如果有人交出价值数千小时的音频文件及其完整转录(不考虑必须手动转录的问题),如何以一个单词结束和另一个单词开始的正确间隔分割音频?难道生成这些声学模型的软件已经必须能够进行语音识别吗?
【问题讨论】:
标签: speech-recognition training-data