【发布时间】:2020-10-13 14:44:53
【问题描述】:
我想要做什么
我正在尝试使用 Mozilla 的语音转文本引擎 deepspeech 转录 Telegram 音频消息。
在 16 位 16khz 中使用 *.wav 完美无缺。
我想添加*.ogg opus 支持,因为 Telegram 使用这种格式来发送音频消息。
到目前为止我所尝试的
到目前为止,我已经尝试过pyogg 和soundfile,但没有成功。
Soundfile 可能完全无法读取 opus 格式,并且 pyogg 在没有 conda 的情况下安装起来很痛苦。我有非常奇怪的时刻,它真的让 python 崩溃了。
现在,我正在尝试 librosa,结果喜忧参半。
data, sample_rate = librosa.load(path)
tmp = np.array(data, np.float16)
tmp.dtype = np.int16
int16 = np.array(tmp, dtype=np.int16)
metadata = model.sttWithMetadata(int16)
Deepspeech 真的很喜欢np.int16。 model.sttWithMetadata 本质上是对抄写员的呼吁。
现在,它确实转录了一些内容,但与我在音频信息中所说的内容相去甚远。
【问题讨论】:
标签: python python-telegram-bot ogg librosa mozilla-deepspeech