【问题标题】:How to input audio data into deep learning algorithm?如何将音频数据输入深度学习算法?
【发布时间】:2020-02-07 11:30:34
【问题描述】:
我是深度学习的新手,我的目标是使用 GAN(生成对抗网络)来识别情感语音。我只知道图像作为大多数深度学习算法的输入,比如 GAN。但我很好奇除了使用频谱图的图像作为输入之外,音频数据如何作为输入。另外,如果您能用外行的方式解释一下,我将不胜感激。
【问题讨论】:
标签:
deep-learning
classification
speech
audio-processing
generative-adversarial-network
【解决方案1】:
音频数据可以以 numpy 数组的形式表示,但在开始之前,您必须了解音频的真正含义。如果您考虑一下音频的外观,它只不过是一种类似波形的数据格式,其中音频的幅度随时间而变化。
假设我们的音频在时域中表示,我们可以每半秒(任意)提取值。这称为采样率。
由于采样率较低,将数据转换为频域可以减少计算量。
现在,让我们加载数据。我们将使用一个名为 librosa 的库,可以使用 pip 安装它。
data, sampling_rate = librosa.load('audio.wav')
现在,您拥有数据和采样率。我们现在可以绘制波形了。
librosa.display.waveplot(data, sr=sampling_rate)
现在,您有了 numpy 数组形式的音频数据。您现在可以研究数据的特征并提取您感兴趣的特征来训练您的模型。