Google Speech API v1beta1（syncrecognize 和 asyncrecognize API 调用）答案

【问题标题】：Google speech API v1beta1 (syncrecognize and asyncrecognize API call)Google Speech API v1beta1（syncrecognize 和 asyncrecognize API 调用）
【发布时间】：2016-07-27 09:21:08
【问题描述】：

我是一名 Java 开发人员，我有几个与 Google 语音 API V1Beta1 相关的问题。

问题1（同步识别案例）：

我尝试（通过 GCS）将小尺寸（运行文件不到一分钟）的音频文件上传到谷歌语音 api，它正在工作但置信度输出级别仅为 0.32497215。那是我的结果与我的音频输入不完全相同。

如何提高置信度输出？

问题2（Asyncrecognize案例）：

我尝试了大尺寸的音频文件（超过一分钟的运行文件）。这个案例我使用了API调用：

https://speech.googleapis.com/v1beta1/speech:asyncrecognize?key=XXXXXXXXXXXXXXXXXXXX

和有效载荷：

"{"config":{"encoding":"LINEAR16","sample_rate": 16000},"audio":{"uri":"gs://" + bucketName +"/"+ objectName + ""}}"

这里我得到了 输出 json 之类的

{"name": "57...........................95"}.

获得此输出后，我使用此名称值进行新的 API 调用（操作接口）。

https://speech.googleapis.com/v1beta1/operations/57.................................95?key=XXXXXXXXXXXXXXXXX

我得到了输出

{
 "name": "57....................................95",
 "done": true,
 "response": {
   "@type": "type.googleapis.com/google.cloud.speech.v1beta1.AsyncRecognizeResponse"
 }
}

如何使用此值进行工作？我需要获取音频语音文本。

请帮我解决这个问题。提前致谢。

【问题讨论】：

最好一次问一个问题。
第二部分，相关问题*.com/questions/38906527/…
请将问题一分为二。您是否使用github.com/GoogleCloudPlatform/java-docs-samples（语音）中的示例？

标签： google-app-engine google-speech-api

【解决方案1】：

给Question 1的想法：

您应该在RecognitionConfig 对象中提供更多详细信息，例如指定languageCode 并通过SpeechContext object 添加提示。

回复Question 2：

检查音频文件的sample rate，您必须确保它等于您在请求中提供的速率。您可以检查它，例如使用以下代码soxi audio_file.flac（此代码需要sox）。

【讨论】：