从音频剪辑中提取单词[关闭]答案

【问题标题】：Extract words from audio clip [closed]从音频剪辑中提取单词[关闭]
【发布时间】：2017-05-31 09:16:57
【问题描述】：

我想创建一个应用程序来记录您对麦克风所说的话并提取所有单词。

我知道这是许多公司和个人都在努力解决的问题，但我不太确定我们离开发擅长这方面的工具还有多远。

另外，是否有任何公开可用的工具来实现这一目标？我希望有一个由 Google Assistant、Apple Siri 或其他东西提供的 API，我可以通过上传音频剪辑然后获取所说的话来使用。

【问题讨论】：

你有没有偶然发现pocketsphinx.js？可能值得一试。
不确定它对您有多大用处，但我使用 Amazon Echo 及其开发人员工具取得了不错的效果。不幸的是，您需要一个实际的设备来自己尝试语音识别；开发工具包只允许您输入将传递给您的“技能”的内容。

标签： javascript audio siri google-assistant-sdk

【解决方案1】：

虽然 Google 确实有 Google Assistant SDK，但它主要用于从您的软件或设备发送音频并从智能助理接收音频响应 - 就像您在 Google Home 上一样。同样，Actions on Google 旨在处理所有自然语言处理 (NLP) 并给你一个回应 - 不是给你确切所说的内容（尽管这是一个副作用）。

这听起来更像是您想要Cloud Speech API，它是一个语音转文本 (STT) 系统。您可能希望将其与 Cloud Natural Language API 之类的东西结合使用，然后可以从生成的文本中解析含义。

【讨论】：

【解决方案2】：

微软有Bing Speech API 用于处理音频并提取所说的话。

他们还有Custom Speech Service和Speaker Recognition API

自定义语音服务用于克服语音识别障碍，例如说话风格、词汇和背景噪音。

help docs and samples 是一个很好的起点。

【讨论】：