【问题标题】:Why use spectrograms in recent neural network speech recognition systems?为什么在最近的神经网络语音识别系统中使用频谱图?
【发布时间】:2024-01-10 22:58:01
【问题描述】:

为什么在最近的神经网络语音识别系统 (https://github.com/SeanNaren/CTCSpeechRecognition) 中使用频谱图,而不是使用神经网络层来学习频谱图变换?

【问题讨论】:

标签: speech-recognition recurrent-neural-network spectrogram


【解决方案1】:

如果您对功能有所了解,那么使用这些信息而不是依赖于学习它通常很有用。

例如,众所周知,只有信号能量对语音识别很重要,而信号相位并不重要。这就是为什么与普通信号相比,使用频谱图是首选的原因,您只需使用重要信息并丢弃不重要的信息。能量计算需要平方,单层不容易学习,要么需要几层,要么需要特殊的非线性。

实际上,使用 log-filterbank 会更好,它会产生更紧凑的特征和相同的预测质量。

在某些情况下,相位很重要,其中之一是识别混合源,您可以根据相位信息分离源,例如 DIET 算法正在做的事情。但在考虑到此类问题之前,语音识别频谱图才被使用。

【讨论】:

    最近更新 更多