speech - 爱码网

Google Speech to Text 的 25 秒延迟

这是我在使用 Google Speech to Text Engine 时遇到的问题。我目前正在以 32kB 的块实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收转录之间平均有 25 秒的延迟，这违背了实时转录的目的。为什么会有这么高的延迟？ ... »

使用 Bing Speech API（语音转文本）转录 MP3 音频文件

我有一个 MP3 格式的长录音（小时+）。以下是我设法从 FFMPEG 获得的有关音频文件的信息： [mp3 @ 000001fe666da320] Skipping 0 bytes of junk at 58650. [mjpeg @ 000001fe666effe0] Changing bps to 8 [mp3 @ 000001fe666da320] Estimating duration... »

IBM Watson Speech to text 处理大文件

我一直在尝试使用 BlueMix SpeechToText Java 库，尤其是 com.ibm.watson.developer_cloud.speech_to_text.v1 中的 SpeechToText 类。我有想要转换为文本的长 wav 文件。这些文件约为 70MB。目标是使用 java API (http://www.ibm.com/smarterplanet/us/en/ibmw... »

Android - 语音识别和保存音频文件 - 在某些设备上不起作用

我有语音识别和保存音频文件的有效解决方案，但该代码仅适用于某些设备。我曾尝试在少数设备上运行此代码。该解决方案似乎适用于 android 5.0，但不适用于更高版本。我正在使用 Intent 类来做到这一点： System.out.println("startVoiceInput"); Intent intent = new Intent(RecognizerIntent.A... »

不同设备上的 Android 语音识别器

在测试了多种不同的语音转文本方法后，我最终得出结论，问题出在我的特定设备上，代码在一台 Android 5 设备上运行良好，而我在另一台运行 Android 6 的设备上一直收到错误第二个设备是使用自定义 sdk 的中国设备我想知道在 Android 中是否需要特定的服务来启用语音识别器，因为我确实安装了谷歌语音应用程序并使用它启用了它adb 和同样的问题不断出现我应该使用什么方法或调试策... »

如何查询默认的 SpeechRecognizer

如何找出默认系统语音识别器的ComponentName，即调用createSpeechRecognizer(Context context)时返回的那个？（其实我只需要找出它支持哪些输入语言，所以如果只有那个答案，那我也很感激。）框架解决了这个问题 String serviceComponent = Settings.Secure.getString(mContext.getContent... »

为什么在最近的神经网络语音识别系统中使用频谱图？

为什么在最近的神经网络语音识别系统 (https://github.com/SeanNaren/CTCSpeechRecognition) 中使用频谱图，而不是使用神经网络层来学习频谱图变换？ ... »

说话人识别[关闭]

我如何区分两个人说话？就像有人说“你好”然后另一个人说“你好”我应该在音频数据中寻找什么样的签名？周期性？非常感谢任何可以回答这个问题的人！... »

在 Wav 文件上运行 Julius 语音识别时权限无效

如何使用Julius 将包含口语单词的 Wav 文件转换为包含这些单词的文本文件？我已经阅读了Julius Book 并在 Voxforge 上下载了Julius quickstart release。从文档中，我想我想在另一个文件中列出我想要处理的 Wav 文件，并通过 filelist 参数将 that 文件的文件名传递给 Julius。例如，我在 /home/myuser/test 中有 ... »

WebkitSpeechRecognition 停止，不触发，随机

我正在尝试使用 webkitSpeechRecognition 转录文本。我找到了这个例子： https://developers.google.com/web/updates/2013/01/Voice-Driven-Web-Apps-Introduction-to-the-Web-Speech-API?hl=en 并已将其应用到我自己的网站中。这在某些条件下效果很好。但是，我基本上只是想在... »

尝试制作一个非常简单的语音识别windows窗体项目

我遵循了一个非常基本的教程（忘记了链接），这一切看起来都很简单，但我似乎没有得到我想要的输出。这是我的主要表单类： using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; usin... »

Android上的长音频语音识别

我想开发一个在 Android 中使用语音到文本支持的模块。我发现了许多与RecognizerIntent 和其他类似的文档和演示。但我发现所有这样的演示都只能提取到 10 秒左右的声音。但我希望我的演示运行超过 5-10 分钟。如果它没有离线运行，我没有任何问题，因为我的应用程序始终在线运行。我也查看了Pocketsphinx on Android，但效果不佳。此外，这仅支持 Androi... »

Flutter_tts 无法在 iOS 上运行

我正在尝试使用 Flutter_tts 库编写一个在颤振上朗读文本的应用程序，它适用于 android，但是当我尝试在 iOS 设备上运行它时出现错误： === BUILD TARGET Runner OF PROJECT Runner WITH CONFIGURATION Debug === ld：警告：找不到自动链接库“swiftDispatch” ld：警告：找不到自... »

Unity Android - 反序列化 JSON 凭证数据时出错 - Google STT API

在设置我知道是 100% 正确的凭据后，我将问题归结为 SpeechClientBuilder 类的函数 .Build()，因为我检查过它们在编辑器上运行代码时工作正常。... »

印地语文本朗读问题

我已推荐speak-with-tts-such-as-hindi 我已经这样做了： extToSpeech text2speechHi; text2speechHi=new TextToSpeech(getApplicationContext(), new TextToSpeech.OnInitListener() { @Override public voi... »

使用语音命令启用和禁用语音识别

我的问题分为两部分。有没有办法使用语音命令启用语音识别。有没有一种方法可以禁用语音识别，但同时保持监听或启用命令以告知它何时再次启用语音识别。这就是我的想法： case "Stop Listening": synthesizer.speakasync("Ok"); recEngine.RecognizeAsyncStop(); //Command or cod... »

如何在 Qt 中将来自麦克风的流式音频数据用于 ASR

我正在做一个语音识别项目，我的程序可以识别音频文件中的单词。现在我需要处理来自麦克风的音频流。我正在使用 QAudio 从麦克风获取声音数据，并且 QAudio 具有启动该过程的功能。此 start(* QBuffer) 函数将数据写入 QBuffer（继承自 QByteArray）对象。当我不处理连续流时，我可以随时停止从麦克风录制并将整个数据从 QBuffer 复制到 QByteArray 中... »

如何提高 Google 对分隔数字的语音识别准确度

我们将此图片提供给我们的用户： enter image description here 这张图片代表不同的数字。我们所有的用户都在他们的麦克风里读到“11-0-9-5”。我们使用 Google Speech Engine，它会解释这个结果： “1109 5”。这使我们无法将口语与预期结果进行比较。而我们被困在了这个阶段。有没有办法告诉 Google 的语音识别从字面上和单独地理... »

AVSpeechsynthesizer 不能在 swift 的 api 调用中工作

目前我正在开发一个演示应用程序，并被分成 3 个部分 1. 语音转文字（完成） 2. 将文本发送到服务器并获取响应（使用 API.ai）（完成） 3. 文字转语音，转语音的回复消息不起作用。文本到语音在函数内部不起作用，我可以为其添加更多优先级。这里是代码 @IBAction func startActionTapped(_ sender: Any) { if audioEng... »

从音频文件读取数据时出现语音识别错误

这是我的代码： import speech_recognition as sr r = sr.Recognizer() file = sr.AudioFile('E:/music/jack.wav') with file as source: audio_file = r.record(source,duration=20) print(r.recognize_google(sourc... »