【发布时间】:2023-03-24 00:06:01
【问题描述】:
我终于成功了。训练后我的 WER(单词错误率)为 0%。我只有一个用于简单语音识别的小数据集(仅用于另一种语言的“是”和“否”)。我用 sphinxtrain 训练(126 个训练文件,12 个测试文件)。音频文件的长度约为 5 秒,包含 8 个单词(是/否混合)。
经过培训,我决定将我的测试文件通过 pocketsphinx 运行。我测试的几乎每个文件都至少有 1 个单词错误。有时它识别的单词比预期的多 1-2 个单词。有时它会将“是”识别为“否”。
- 我想知道为什么我从 sphinxtrain 和 pocketsphinx 得到不同的结果。
- 我还想知道如何使用pocketsphinx 改进我的结果。 (尤其是 Pocketsphinx 将一个“不”识别为两个“不”。
【问题讨论】:
标签: speech-recognition speech-to-text cmusphinx pocketsphinx