【问题标题】:Vosk-api python for speech-recognition. Feature for google-like speech adaption?用于语音识别的 Vosk-api python。类似谷歌的语音适应功能?
【发布时间】:2025-12-20 01:50:16
【问题描述】:

所以 Vosk-api 是一款出色的离线语音识别器,具有出色的支持,但在本文发布时(2020 年 8 月 14 日)文档非常差(或巧妙地隐藏)

问题是:是否有任何替代 google-speech-recognizer 功能,可以通过语音适应来进一步改进转录?

例如

"config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["weather"]
    }]
}

对于 Google,此配置意味着短语 weather 将具有更高的优先级,例如,是否听起来相同。

还是类令牌? 我知道它可能不会在 Vosk for python3 中实现,但仍然......

以下是参考资料:

https://cloud.google.com/speech-to-text/docs/class-tokens


https://cloud.google.com/speech-to-text/docs/speech-adaptation

【问题讨论】:

标签: python-3.x google-speech-to-text-api vosk


【解决方案1】:

您可以关注此文档了解有关 Vosk 模型适配的信息:

https://alphacephei.com/vosk/adaptation

基本上有4个级别:

  1. list of words to recognize更新小模型
  2. 离线更新小模型with the language model from texts
  3. 更新语言模型和字典inside the big model
  4. 微调音响model on your data

这个过程不是完全自动化的,但是你可以在群里寻求帮助。

【讨论】: