用于语音识别的数据是如何收集和准备的？答案

【问题标题】：How is the data used for speech recognition collected and prepared?用于语音识别的数据是如何收集和准备的？
【发布时间】：2015-08-03 08:20:02
【问题描述】：

据我所知，大多数语音识别实现都依赖于二进制文件，其中包含他们试图“识别”的语言的声学模型。

那么人们是如何编译这些模型的呢？

一个人可以手动转录很多演讲，但这需要很多时间。 即便如此，当给定一个包含一些语音的音频文件和一个文本文件中的完整转录时，单个单词的发音仍然需要以某种方式分开。为了匹配音频的哪些部分与文本相对应，仍然需要语音识别。

这是如何收集的？如果有人交出价值数千小时的音频文件及其完整转录（不考虑必须手动转录的问题），如何以一个单词结束和另一个单词开始的正确间隔分割音频？难道生成这些声学模型的软件已经必须能够进行语音识别吗？

【问题讨论】：

【解决方案1】：

那么人们是如何编译这些模型的呢？

一个人可以手动转录很多演讲，但这需要很多时间。

这是正确的，模型准备需要很多时间。语音是手动转录的。您还可以将已转录的语音（如带字幕的电影或转录的讲座或有声读物）用于培训。

即使这样，当给定一个包含一些语音的音频文件和一个文本文件中的完整转录时，单个单词的发音仍然需要以某种方式分开。为了匹配音频的哪些部分与文本相对应，仍然需要语音识别。

您需要将 5-20 秒长的句子分开，而不是单词。语音识别训练可以从称为话语的句子中学习模型，它可以自动分割单词。这种分割是以无监督的方式完成的，本质上它是一个聚类，所以它不需要系统识别语音，它只是检测句子中结构相似的块并将它们分配给电话。这使得语音训练比单独的单词训练更容易。

这是如何收集的？如果有人交出价值数千小时的音频文件及其完整转录（不考虑必须手动转录的问题），如何以一个单词结束和另一个单词开始的正确间隔分割音频？生成这些声学模型的软件不是必须具备语音识别能力吗？

您需要从一些手动转录的 50-100 小时大小的录音数据库初始化系统。您可以阅读示例here。对于许多流行的语言，如英语、法语、德语、俄语，此类数据库已经存在。对于某些人来说，他们正在dedicated resource 中进行。

拥有初始数据库后，您可以拍摄大量视频并使用现有模型对其进行分段。这有助于创建数千小时的数据库。例如，这样的数据库是从 Ted 演讲中训练出来的，你可以阅读它here。

【讨论】：