将数据输入到 LSTM 网络 Keras答案

【问题标题】：Input data to LSTM network Keras将数据输入到 LSTM 网络 Keras
【发布时间】：2019-07-03 19:43:42
【问题描述】：

我有 10 个数组。它们中的每一个代表一个数据点（输入）。数组的形状是 (16,3)、(34,3) 等。由于 LSTM 需要 3dim 数据，我重新调整了这 10 个数组中的每一个。示例：如果是 (16,3) 现在是 (1,16,3)。我试图让 ((1,16,3),(1,34,3),etc..) 成为我的数组形状，换句话说，一个 numpy 数组中的 10 个数组，每个形状 (1,something,3 )。当我将所有 10 个数组作为一个输入数据时，出现以下错误：

检查模型输入时出错：您所在的 Numpy 数组列表传递给您的模型不是模型预期的大小。预计查看 1 个数组，但得到了以下 10 个数组的列表。

但是，如果我用一个标签提供其中一个数组，它会起作用并且过拟合（应该如此）。如果 batch_size=1，程序不应该拿这 10 个样本之一来训练吗？

这是我的代码：

import os
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM

data = []
directory = 'realData'
for filename in os.listdir(directory):
    data.append(np.load('realData/' + filename))

for i in range(len(data)):
    data[i] = data[i].reshape(1,data[i].shape[0],3)

sad = np.array([[0]] * 2)
okay = np.array([[1]] * 3)
happy = np.array([[2]] * 2)
perfect = np.array([[3]] * 3)

labels = np.concatenate([sad,okay,happy,perfect],axis=0)

model = Sequential()
model.add(LSTM(32, input_shape=(None,3)))
model.add(Dense(1))

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

print('Train...')    
model.fit(data, labels,
          batch_size=1,
          epochs=15,
          validation_data=(data, labels))

score, acc = model.evaluate(data, labels, batch_size=1)
print('Test score:', score)
print('Test accuracy:', acc)

【问题讨论】：

标签： python machine-learning keras lstm data-science

【解决方案1】：

训练时的 LSTM 输入需要一个 Numpy 数组。在这种情况下，您可以将每个数组填充到批处理/输入中的最高长度，然后将它们转换为 Numpy 数组。

import numpy as np

def pad_txt_data(arr):
  paded_arr = []
  prefered_len = len(max(arr, key=len))

  for each_arr in arr:
    if len(each_arr) < prefered_len:
      print('padding array with zero')
      while len(each_arr) < prefered_len:
          each_arr.insert(0, np.zeros(3))
      paded_arr.append(each_arr)
  return np.array(paded_arr)

# your_arr = [shape(16, 3), shape(32, 3), . .. .]
# loop through your_arr and prepare a single array with all the arrays and pass this array to padding function.

interm_arr = []
def input_prep():
  for each_arr in your_arr:
    interm_arr.append(each_arr)
  final_arr = pad_txt_data(interm_arr)

所以最终的数组将具有 (input_size, maxlength, features_size) 的形状。在这种情况下，如果输入中有 10 个数组，final_arr 将具有形状 (10, max_lenth, 3)。您可以将其用作 LSTM 的输入。

【讨论】：

each_arr.insert(0, np.zeros(3)) 插入命令不存在.. 它没有按照您想象的方式工作。它给了我一个奇怪的形状，我会尝试自己调整功能
我调整了函数来工作，它产生了预期的输出但提供了相同的错误
如果 each_arr 不是一个 numpy 数组，它会出现错误“插入命令不存在”。你做了什么调整？你能粘贴更新的代码吗？
我添加了 each_arr = np.concatenate([each_arr, [[0,0,0]]], axis=0) 而不是 each_arr.insert(0, np.zeros(3))。
试试这个，看看each_arr的形状和最终输入一次。 b= np.zeros(3) each_arr = np.concatenate([each_arr, b], axis=0)

【解决方案2】：

您的模型需要一个 numpy 数组作为输入，其中第一个维度是批处理维度。相反，您为它提供了一个 numpy 数组列表。您可以使用data = np.array(data) 将数组列表转换为单个数组。

【讨论】：

导致以下错误：data = np.array(data) ValueError: could not broadcast input array from shape (89,3) into shape (1)