【问题标题】:How to use mozilla deepspeech to convert speech to text using it's pre-trained model?如何使用 mozilla deepspeech 使用其预训练模型将语音转换为文本?
【发布时间】:2020-01-15 00:09:53
【问题描述】:

我想使用 Mozilla deepspeech 将语音转换为文本。但是输出真的很糟糕。

我已经下载了 mozilla 的预训练模型,然后我所做的是:



BEAM_WIDTH = 500

LM_WEIGHT = 1.50

VALID_WORD_COUNT_WEIGHT = 2.10

N_FEATURES = 26

N_CONTEXT = 9


ds = Model(model, N_FEATURES, N_CONTEXT, alphabet, BEAM_WIDTH)


fs,audio = wav.read(path)


data = audio[:,0] ## changing to mono channel (using only one channel)

prediction = ds.stt(data,fs)

print(test)

print(prediction)

现在输出与我的音频样本相去甚远。我该怎么做才能提高它的准确性?

【问题讨论】:

标签: speech-to-text mozilla-deepspeech


【解决方案1】:

我认为这是因为您没有包含任何 LanguageModel。

预训练模型基本上只是声学模型,它只会将音频转录为听起来可能没有意义的相似文本。

如果您将声学模型与语言模型 (LM) 结合起来,您可能会获得更好的结果。

在您的代码示例中,我可以看到参数 LM_WEIGHT,但看不到对 LM 本身的任何引用。

我不确定您要以哪种语言集成 deepspeech,但这里是 node-js 的示例。这是集成LM的部分

const LM_ALPHA = 0.75;
const LM_BETA = 1.85;
let lmPath = './models/lm.binary';
let triePath = './models/trie';
model.enableDecoderWithLM(lmPath, triePath, LM_ALPHA, LM_BETA);

如果我没记错的话,LM & Trie 文件包含在预训练的下载 ZIP 中

wget https://github.com/mozilla/DeepSpeech/releases/download/v0.5.1/deepspeech-0.5.1-models.tar.gz

否则,您还可以创建自己的语言模型,如果您只需要模型来识别特定的单词,这将是有意义的。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-06-14
    • 2018-11-08
    • 2017-08-19
    • 2021-05-24
    • 1970-01-01
    • 1970-01-01
    • 2019-08-16
    • 2021-06-22
    相关资源
    最近更新 更多