【发布时间】:2023-12-16 11:49:02
【问题描述】:
我正在对语音数据中的语音和非语音进行分类,其中包含 3630371 个数据点和 39 个特征。即语音数据的形状是 (3630371, 39)。如何将其重塑为 LSTM 输入。 3D input_shape 必须是什么,或者“Samples”、“Timestep”和“Features”的值是什么。
下列说法正确吗?
data.reshape(3630371, 1, 39)
LSTM(32, input_shape = (1, 39))
请帮忙!我不知道。
【问题讨论】:
-
您的 39 项功能是什么?或者你有 300 万个音频片段,每个片段都包含 39 个样本的序列?
-
所有剪辑合并成一个有300万个块,每个20ms的块有39个特征。
-
好的,如果你有 1 个包含 300 万个时间戳的序列,每个时间戳都有 39 个特征,那么形状应该是 (1, 3630371, 39)。但是,仅使用一个训练样本并不能做很多事情,而且 LSTM 无法处理那么长的序列。数据如何标注?你有每个块的语音/非语音标签还是整个系列只有一个?
-
每个块都有标签。如何将其提供给 LSTM?
-
如果你有每个块的标签,那么你没有分类序列,你对每个单独的块进行分类,这样你就可以使用密集层。除非你想做一些事情,比如把 N 个块放在一起,然后对其中至少一个是否包含声音进行分类
标签: keras deep-learning lstm recurrent-neural-network speech