【问题标题】:Improving speach-to-text recognition改进语音到文本的识别
【发布时间】:2021-10-26 19:07:47
【问题描述】:
我刚开始研究机器学习和相关技术。我选择语音识别作为起点。我尝试了 Google Cloud Speech-to-Text 并识别了 google 示例和我自己的示例。结果,它没有正确识别我样本中的所有单词。
- 如何提高识别率?
- 有什么方法可以教我自己的声音或特定的短语吗?
- 除了 Google Cloud,还有其他选择吗?
【问题讨论】:
标签:
google-cloud-platform
speech-recognition
speech-to-text
【解决方案1】:
Google Cloud Speech-to-Text (SST) 由预先训练的机器学习模型提供支持,但它是一项不断改进的服务。
为确保您充分利用 SST,请查看公开文档中发布的 Best Practices,其中包括:
- 采样率
- 传输编解码器
- 背景噪音
- 输入通道使用情况
- 帧大小
如果没有您的示例文件,很难确定您需要在哪里工作以提高结果的质量,但是请注意,Google 教程的设计已经考虑了上述最佳做法。
举个简单的例子,请注意在这个How-to guide 到在本地文件上执行同步语音识别可以找到两个最佳实践:
- 使用 LINEAR16 编解码器完成编码
- 采样率为 16000 赫兹
请查看this document,了解如何优化音频文件以了解更多信息。
继续前进,有一些方法可以使模型适应您的特定需求,请查看 this document 了解如何改善转录结果,并根据您的问题 this section 了解如何提高单词和短语的识别;此外,您可能还想深入了解类,因为它们在您为特定业务案例实施时非常有用。
Speech-to-Text 和其他 ML/AI 技术有很多选择,很难将它们排在另一个之上,但请查看探讨此主题的 this blog post。