【问题标题】:Improving speach-to-text recognition改进语音到文本的识别
【发布时间】:2021-10-26 19:07:47
【问题描述】:

我刚开始研究机器学习和相关技术。我选择语音识别作为起点。我尝试了 Google Cloud Speech-to-Text 并识别了 google 示例和我自己的示例。结果,它没有正确识别我样本中的所有单词。

  • 如何提高识别率?
  • 有什么方法可以教我自己的声音或特定的短语吗?
  • 除了 Google Cloud,还有其他选择吗?

【问题讨论】:

    标签: google-cloud-platform speech-recognition speech-to-text


    【解决方案1】:

    Google Cloud Speech-to-Text (SST) 由预先训练的机器学习模型提供支持,但它是一项不断改进的服务。

    为确保您充分利用 SST,请查看公开文档中发布的 Best Practices,其中包括:

    • 采样率
    • 传输编解码器
    • 背景噪音
    • 输入通道使用情况
    • 帧大小

    如果没有您的示例文件,很难确定您需要在哪里工作以提高结果的质量,但是请注意,Google 教程的设计已经考虑了上述最佳做法。
    举个简单的例子,请注意在这个How-to guide在本地文件上执行同步语音识别可以找到两个最佳实践:

    • 使用 LINEAR16 编解码器完成编码
    • 采样率为 16000 赫兹

    请查看this document,了解如何优化音频文件以了解更多信息。

    继续前进,有一些方法可以使模型适应您的特定需求,请查看 this document 了解如何改善转录结果,并根据您的问题 this section 了解如何提高单词和短语的识别;此外,您可能还想深入了解,因为它们在您为特定业务案例实施时非常有用。

    Speech-to-Text 和其他 ML/AI 技术有很多选择,很难将它们排在另一个之上,但请查看探讨此主题的 this blog post

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-12-04
      • 2023-03-03
      • 2019-05-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-06-07
      相关资源
      最近更新 更多