【问题标题】:Input data to LSTM network Keras将数据输入到 LSTM 网络 Keras
【发布时间】:2019-07-03 19:43:42
【问题描述】:

我有 10 个数组。它们中的每一个代表一个数据点(输入)。数组的形状是 (16,3)、(34,3) 等。由于 LSTM 需要 3dim 数据,我重新调整了这 10 个数组中的每一个。示例:如果是 (16,3) 现在是 (1,16,3)。我试图让 ((1,16,3),(1,34,3),etc..) 成为我的数组形状,换句话说,一个 numpy 数组中的 10 个数组,每个形状 (1,something,3 )。当我将所有 10 个数组作为一个输入数据时,出现以下错误:

检查模型输入时出错:您所在的 Numpy 数组列表 传递给您的模型不是模型预期的大小。预计 查看 1 个数组,但得到了以下 10 个数组的列表。

但是,如果我用一个标签提供其中一个数组,它会起作用并且过拟合(应该如此)。 如果 batch_size=1,程序不应该拿这 10 个样本之一来训练吗?

这是我的代码:

import os
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM

data = []
directory = 'realData'
for filename in os.listdir(directory):
    data.append(np.load('realData/' + filename))

for i in range(len(data)):
    data[i] = data[i].reshape(1,data[i].shape[0],3)

sad = np.array([[0]] * 2)
okay = np.array([[1]] * 3)
happy = np.array([[2]] * 2)
perfect = np.array([[3]] * 3)

labels = np.concatenate([sad,okay,happy,perfect],axis=0)

model = Sequential()
model.add(LSTM(32, input_shape=(None,3)))
model.add(Dense(1))

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

print('Train...')    
model.fit(data, labels,
          batch_size=1,
          epochs=15,
          validation_data=(data, labels))

score, acc = model.evaluate(data, labels, batch_size=1)
print('Test score:', score)
print('Test accuracy:', acc)

【问题讨论】:

    标签: python machine-learning keras lstm data-science


    【解决方案1】:

    训练时的 LSTM 输入需要一个 Numpy 数组。在这种情况下,您可以将每个数组填充到批处理/输入中的最高长度,然后将它们转换为 Numpy 数组。

    import numpy as np
    
    def pad_txt_data(arr):
      paded_arr = []
      prefered_len = len(max(arr, key=len))
    
      for each_arr in arr:
        if len(each_arr) < prefered_len:
          print('padding array with zero')
          while len(each_arr) < prefered_len:
              each_arr.insert(0, np.zeros(3))
          paded_arr.append(each_arr)
      return np.array(paded_arr)
    
    # your_arr = [shape(16, 3), shape(32, 3), . .. .]
    # loop through your_arr and prepare a single array with all the arrays and pass this array to padding function.
    
    interm_arr = []
    def input_prep():
      for each_arr in your_arr:
        interm_arr.append(each_arr)
      final_arr = pad_txt_data(interm_arr)
    

    所以最终的数组将具有 (input_size, maxlength, features_size) 的形状。在这种情况下,如果输入中有 10 个数组,final_arr 将具有形状 (10, max_lenth, 3)。您可以将其用作 LSTM 的输入。

    【讨论】:

    • each_arr.insert(0, np.zeros(3)) 插入命令不存在.. 它没有按照您想象的方式工作。它给了我一个奇怪的形状,我会尝试自己调整功能
    • 我调整了函数来工作,它产生了预期的输出但提供了相同的错误
    • 如果 each_arr 不是一个 numpy 数组,它会出现错误“插入命令不存在”。你做了什么调整?你能粘贴更新的代码吗?
    • 我添加了 each_arr = np.concatenate([each_arr, [[0,0,0]]], axis=0) 而不是 each_arr.insert(0, np.zeros(3))。
    • 试试这个,看看each_arr的形状和最终输入一次。 b= np.zeros(3) each_arr = np.concatenate([each_arr, b], axis=0)
    【解决方案2】:

    您的模型需要一个 numpy 数组作为输入,其中第一个维度是批处理维度。相反,您为它提供了一个 numpy 数组列表。您可以使用data = np.array(data) 将数组列表转换为单个数组。

    【讨论】:

    • 导致以下错误:data = np.array(data) ValueError: could not broadcast input array from shape (89,3) into shape (1)
    猜你喜欢
    • 2021-08-13
    • 2019-01-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-11-29
    • 1970-01-01
    • 2020-02-25
    • 1970-01-01
    相关资源
    最近更新 更多