【发布时间】:2020-05-26 01:05:58
【问题描述】:
我是 DeepSpeech 的新手,我按照此 link 创建了语音转文本代码,但我的结果与原始语音相差甚远。我正在使用 Deepspeech 0.6.1 并安装了相关的预训练模型。我正在使用这个link 来创建我的带有默认选项的wav 文件。 下面是我的代码。
import numpy as np
import wave
from deepspeech import Model
from scipy.io import wavfile as wav
import speech_recognition as sr
audio_file = "D:/Dataset/DeepSpeech/converted_stt1.wav"
ds = Model('D:/Dataset/DeepSpeech/deepspeech-0.6.1-models/models/output_graph.pbmm',500)
ds.enableDecoderWithLM('D:/Dataset/DeepSpeech/deepspeech-0.6.1-models/models/lm.binary','D:/Dataset/DeepSpeech/deepspeech-0.6.1-models/models/trie', 0.75, 1.85)
rate, audio = wav.read(audio_file)
print(audio)
transcript =ds.stt(audio)
print(transcript)
我怀疑这个问题是因为我的音频格式或其他原因。 请帮我解决这个问题,我怎样才能充分利用 deepspeech 库。
【问题讨论】:
-
您是否在文件中使用自己的录音。你有没有在里面去除噪音。
-
和我一样的问题。它在项目页面上提供的 wav 音频文件上提供了良好的效果,但在现场录音中却没有。
-
它对降噪文件有很好的效果。