【发布时间】:2019-10-11 17:14:18
【问题描述】:
我正在尝试学习 cnn 网络来识别语音中的情感。为此,我使用 mel-ceptral 系数 (mfcc),它将每个音频文件表示为二维数组(帧数 * mfcc 系数数)。我想要一个 3 维数组作为我的 cnn 卷积层的输入,其中第 3 维是音频文件的数量。我怎样才能得到这样的数组?
for i in range(len(audio_list)):
(rate,sig) = wav.read(source_folder + audio_list[i])
inputs = mfcc(sig, rate, nfft=1300)
# Transform in 3D array
train_inputs[i] = (np.asarray(inputs[np.newaxis, :]))
【问题讨论】:
-
发布您还尝试过的其他内容及其相应的回溯。
标签: python arrays multidimensional-array conv-neural-network mfcc