speech

Google Speech to Text 的 25 秒延迟

这是我在使用 Google Speech to Text Engine 时遇到的问题。我目前正在以 32kB 的块实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收转录之间平均有 25 秒的延迟,这违背了实时转录的目的。 为什么会有这么高的延迟? ... »

使用 Bing Speech API(语音转文本)转录 MP3 音频文件

我有一个 MP3 格式的长录音(小时+)。以下是我设法从 FFMPEG 获得的有关音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk at 58650. [mjpeg @ 000001fe666effe0] Changing bps to 8 [mp3 @ 000001fe666da320] Estimating duration... »

IBM Watson Speech to text 处理大文件

我一直在尝试使用 BlueMix SpeechToText Java 库,尤其是 com.ibm.watson.developer_cloud.speech_to_text.v1 中的 SpeechToText 类。 我有想要转换为文本的长 wav 文件。这些文件约为 70MB。目标是使用 java API (http://www.ibm.com/smarterplanet/us/en/ibmw... »

Android - 语音识别和保存音频文件 - 在某些设备上不起作用

我有语音识别和保存音频文件的有效解决方案,但该代码仅适用于某些设备。 我曾尝试在少数设备上运行此代码。该解决方案似乎适用于 android 5.0,但不适用于更高版本。 我正在使用 Intent 类来做到这一点: System.out.println("startVoiceInput"); Intent intent = new Intent(RecognizerIntent.A... »

不同设备上的 Android 语音识别器

在测试了多种不同的语音转文本方法后,我最终得出结论,问题出在我的特定设备上,代码在一台 Android 5 设备上运行良好,而我在另一台运行 Android 6 的设备上一直收到错误 第二个设备是使用自定义 sdk 的中国设备我想知道在 Android 中是否需要特定的服务来启用语音识别器,因为我确实安装了谷歌语音应用程序并使用它启用了它adb 和同样的问题不断出现 我应该使用什么方法或调试策... »

如何查询默认的 SpeechRecognizer

如何找出默认系统语音识别器的ComponentName,即调用createSpeechRecognizer(Context context)时返回的那个? (其实我只需要找出它支持哪些输入语言,所以如果只有那个答案,那我也很感激。) 框架解决了这个问题 String serviceComponent = Settings.Secure.getString(mContext.getContent... »

说话人识别[关闭]

我如何区分两个人说话?就像有人说“你好”然后另一个人说“你好”我应该在音频数据中寻找什么样的签名?周期性? 非常感谢任何可以回答这个问题的人!... »

在 Wav 文件上运行 Julius 语音识别时权限无效

如何使用Julius 将包含口语单词的 Wav 文件转换为包含这些单词的文本文件?我已经阅读了Julius Book 并在 Voxforge 上下载了Julius quickstart release。从文档中,我想我想在另一个文件中列出我想要处理的 Wav 文件,并通过 filelist 参数将 that 文件的文件名传递给 Julius。 例如,我在 /home/myuser/test 中有 ... »

WebkitSpeechRecognition 停止,不触发,随机

我正在尝试使用 webkitSpeechRecognition 转录文本。我找到了这个例子: https://developers.google.com/web/updates/2013/01/Voice-Driven-Web-Apps-Introduction-to-the-Web-Speech-API?hl=en 并已将其应用到我自己的网站中。这在某些条件下效果很好。但是,我基本上只是想在... »

尝试制作一个非常简单的语音识别windows窗体项目

我遵循了一个非常基本的教程(忘记了链接),这一切看起来都很简单,但我似乎没有得到我想要的输出。这是我的主要表单类: using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; usin... »

c#

Android上的长音频语音识别

我想开发一个在 Android 中使用语音到文本支持的模块。我发现了许多与RecognizerIntent 和其他类似的文档和演示。但我发现所有这样的演示都只能提取到 10 秒左右的声音。但我希望我的演示运行超过 5-10 分钟。如果它没有离线运行,我没有任何问题,因为我的应用程序始终在线运行。 我也查看了Pocketsphinx on Android,但效果不佳。此外,这仅支持 Androi... »

Flutter_tts 无法在 iOS 上运行

我正在尝试使用 Flutter_tts 库编写一个在颤振上朗读文本的应用程序,它适用于 android,但是当我尝试在 iOS 设备上运行它时出现错误: === BUILD TARGET Runner OF PROJECT Runner WITH CONFIGURATION Debug === ld:警告:找不到自动链接库“swiftDispatch” ld:警告:找不到自... »

印地语文本朗读问题

我已推荐speak-with-tts-such-as-hindi 我已经这样做了: extToSpeech text2speechHi; text2speechHi=new TextToSpeech(getApplicationContext(), new TextToSpeech.OnInitListener() { @Override public voi... »

使用语音命令启用和禁用语音识别

我的问题分为两部分。 有没有办法使用语音命令启用语音识别。 有没有一种方法可以禁用语音识别,但同时保持监听或启用命令以告知它何时再次启用语音识别。 这就是我的想法: case "Stop Listening": synthesizer.speakasync("Ok"); recEngine.RecognizeAsyncStop(); //Command or cod... »

c#

如何在 Qt 中将来自麦克风的流式音频数据用于 ASR

我正在做一个语音识别项目,我的程序可以识别音频文件中的单词。现在我需要处理来自麦克风的音频流。我正在使用 QAudio 从麦克风获取声音数据,并且 QAudio 具有启动该过程的功能。此 start(* QBuffer) 函数将数据写入 QBuffer(继承自 QByteArray)对象。当我不处理连续流时,我可以随时停止从麦克风录制并将整个数据从 QBuffer 复制到 QByteArray 中... »

如何提高 Google 对分隔数字的语音识别准确度

我们将此图片提供给我们的用户: enter image description here 这张图片代表不同的数字。我们所有的用户都在他们的麦克风里读到“11-0-9-5”。 我们使用 Google Speech Engine,它会解释这个结果: “1109 5”。 这使我们无法将口语与预期结果进行比较。而我们被困在了这个阶段。 有没有办法告诉 Google 的语音识别从字面上和单独地理... »

AVSpeechsynthesizer 不能在 swift 的 api 调用中工作

目前我正在开发一个演示应用程序,并被分成 3 个部分 1. 语音转文字(完成) 2. 将文本发送到服务器并获取响应(使用 API.ai)(完成) 3. 文字转语音,转语音的回复消息不起作用。 文本到语音在函数内部不起作用,我可以为其添加更多优先级。 这里是代码 @IBAction func startActionTapped(_ sender: Any) { if audioEng... »