Google Speech to Text 的 25 秒延迟
这是我在使用 Google Speech to Text Engine 时遇到的问题。我目前正在以 32kB 的块实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收转录之间平均有 25 秒的延迟,这违背了实时转录的目的。 为什么会有这么高的延迟? ... »
这是我在使用 Google Speech to Text Engine 时遇到的问题。我目前正在以 32kB 的块实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收转录之间平均有 25 秒的延迟,这违背了实时转录的目的。 为什么会有这么高的延迟? ... »
我有一个 MP3 格式的长录音(小时+)。以下是我设法从 FFMPEG 获得的有关音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk at 58650. [mjpeg @ 000001fe666effe0] Changing bps to 8 [mp3 @ 000001fe666da320] Estimating duration... »
我一直在尝试使用 BlueMix SpeechToText Java 库,尤其是 com.ibm.watson.developer_cloud.speech_to_text.v1 中的 SpeechToText 类。 我有想要转换为文本的长 wav 文件。这些文件约为 70MB。目标是使用 java API (http://www.ibm.com/smarterplanet/us/en/ibmw... »
我有语音识别和保存音频文件的有效解决方案,但该代码仅适用于某些设备。 我曾尝试在少数设备上运行此代码。该解决方案似乎适用于 android 5.0,但不适用于更高版本。 我正在使用 Intent 类来做到这一点: System.out.println("startVoiceInput"); Intent intent = new Intent(RecognizerIntent.A... »
在测试了多种不同的语音转文本方法后,我最终得出结论,问题出在我的特定设备上,代码在一台 Android 5 设备上运行良好,而我在另一台运行 Android 6 的设备上一直收到错误 第二个设备是使用自定义 sdk 的中国设备我想知道在 Android 中是否需要特定的服务来启用语音识别器,因为我确实安装了谷歌语音应用程序并使用它启用了它adb 和同样的问题不断出现 我应该使用什么方法或调试策... »
如何找出默认系统语音识别器的ComponentName,即调用createSpeechRecognizer(Context context)时返回的那个? (其实我只需要找出它支持哪些输入语言,所以如果只有那个答案,那我也很感激。) 框架解决了这个问题 String serviceComponent = Settings.Secure.getString(mContext.getContent... »
为什么在最近的神经网络语音识别系统 (https://github.com/SeanNaren/CTCSpeechRecognition) 中使用频谱图,而不是使用神经网络层来学习频谱图变换? ... »
我如何区分两个人说话?就像有人说“你好”然后另一个人说“你好”我应该在音频数据中寻找什么样的签名?周期性? 非常感谢任何可以回答这个问题的人!... »
如何使用Julius 将包含口语单词的 Wav 文件转换为包含这些单词的文本文件?我已经阅读了Julius Book 并在 Voxforge 上下载了Julius quickstart release。从文档中,我想我想在另一个文件中列出我想要处理的 Wav 文件,并通过 filelist 参数将 that 文件的文件名传递给 Julius。 例如,我在 /home/myuser/test 中有 ... »
我正在尝试使用 webkitSpeechRecognition 转录文本。我找到了这个例子: https://developers.google.com/web/updates/2013/01/Voice-Driven-Web-Apps-Introduction-to-the-Web-Speech-API?hl=en 并已将其应用到我自己的网站中。这在某些条件下效果很好。但是,我基本上只是想在... »
我遵循了一个非常基本的教程(忘记了链接),这一切看起来都很简单,但我似乎没有得到我想要的输出。这是我的主要表单类: using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; usin... »
我想开发一个在 Android 中使用语音到文本支持的模块。我发现了许多与RecognizerIntent 和其他类似的文档和演示。但我发现所有这样的演示都只能提取到 10 秒左右的声音。但我希望我的演示运行超过 5-10 分钟。如果它没有离线运行,我没有任何问题,因为我的应用程序始终在线运行。 我也查看了Pocketsphinx on Android,但效果不佳。此外,这仅支持 Androi... »
我正在尝试使用 Flutter_tts 库编写一个在颤振上朗读文本的应用程序,它适用于 android,但是当我尝试在 iOS 设备上运行它时出现错误: === BUILD TARGET Runner OF PROJECT Runner WITH CONFIGURATION Debug === ld:警告:找不到自动链接库“swiftDispatch” ld:警告:找不到自... »
在设置我知道是 100% 正确的凭据后,我将问题归结为 SpeechClientBuilder 类的函数 .Build(),因为我检查过它们在编辑器上运行代码时工作正常。... »
我已推荐speak-with-tts-such-as-hindi 我已经这样做了: extToSpeech text2speechHi; text2speechHi=new TextToSpeech(getApplicationContext(), new TextToSpeech.OnInitListener() { @Override public voi... »
我的问题分为两部分。 有没有办法使用语音命令启用语音识别。 有没有一种方法可以禁用语音识别,但同时保持监听或启用命令以告知它何时再次启用语音识别。 这就是我的想法: case "Stop Listening": synthesizer.speakasync("Ok"); recEngine.RecognizeAsyncStop(); //Command or cod... »
我正在做一个语音识别项目,我的程序可以识别音频文件中的单词。现在我需要处理来自麦克风的音频流。我正在使用 QAudio 从麦克风获取声音数据,并且 QAudio 具有启动该过程的功能。此 start(* QBuffer) 函数将数据写入 QBuffer(继承自 QByteArray)对象。当我不处理连续流时,我可以随时停止从麦克风录制并将整个数据从 QBuffer 复制到 QByteArray 中... »
我们将此图片提供给我们的用户: enter image description here 这张图片代表不同的数字。我们所有的用户都在他们的麦克风里读到“11-0-9-5”。 我们使用 Google Speech Engine,它会解释这个结果: “1109 5”。 这使我们无法将口语与预期结果进行比较。而我们被困在了这个阶段。 有没有办法告诉 Google 的语音识别从字面上和单独地理... »
目前我正在开发一个演示应用程序,并被分成 3 个部分 1. 语音转文字(完成) 2. 将文本发送到服务器并获取响应(使用 API.ai)(完成) 3. 文字转语音,转语音的回复消息不起作用。 文本到语音在函数内部不起作用,我可以为其添加更多优先级。 这里是代码 @IBAction func startActionTapped(_ sender: Any) { if audioEng... »
这是我的代码: import speech_recognition as sr r = sr.Recognizer() file = sr.AudioFile('E:/music/jack.wav') with file as source: audio_file = r.record(source,duration=20) print(r.recognize_google(sourc... »