关于 Keras 嵌入层的输入形状的混淆答案

【问题标题】：Confusion about input shape for Keras Embedding layer关于 Keras 嵌入层的输入形状的混淆
【发布时间】：2018-11-25 07:22:01
【问题描述】：

我正在尝试使用 Keras 嵌入层来创建我自己的 CBoW 实现，看看它是如何工作的。

我已经生成了由我正在搜索的上下文单词的向量表示的输出，其大小等于我的词汇。我还生成了输入，以便每个上下文单词都有 X 个附近的单词，由它们的 one-hot 编码向量表示。

例如，如果我的句子是：

“我跑过栅栏去找我的狗”

使用窗口大小 2，我可以生成以下输入/输出：

[[over, the, to, find], fence] 其中“fence”是我的上下文词，“over”、“the”、“to”、“find”是我在窗口 2（2 in前面，后面 2 个）。

使用 500 个样本词汇量和 100 个训练样本，在对我的输入和输出进行 one-hot 编码后，它将具有以下维度：

y.shape -> (100,500)
X.shape -> (100,4,500)

也就是说，我有 100 个输出，每个输出由一个 500 大小的向量表示。我有 100 个输入，每个输入由一系列 4 500 大小的向量表示。

我有一个简单的模型定义为：

model = Sequential()
model.add(Embedding(input_dim=vocabulary_size, output_dim=embedding_size, input_length=2*window_size))
#take average of context words at hidden layer
model.add(Lambda(lambda x: K.mean(x, axis = 1), output_shape=(embedding_size,)))
model.add(Dense(vocabulary_size, activation='softmax'))
model.compile(loss = 'categorical_crossentropy', optimizer = 'adam')

但是，当我尝试拟合我的模型时，出现尺寸异常：

model.fit(X, y, batch_size=10, epochs=2, verbose=1)
ValueError: Error when checking input: expected embedding_6_input to have 2 dimensions, but got array with shape (100, 4, 500)

现在，我只能假设我错误地使用了嵌入层。我已经读过CrossValidated Question 和Keras documentation。

我仍然不确定这个嵌入层的输入是如何工作的。我相当确定我的input_dim 和output_dim 是正确的，剩下的input_length。根据 CrossValidated，我的 input_length 是我的序列的长度。根据 Keras，我的输入应该是维度 (batch_size, input_length)。

如果我的输入是 4 个单词，每个单词由大小为 vocab_size 的词向量表示，我如何将其输入到模型中？

【问题讨论】：

如果答案解决了您的问题，请接受点击答案旁边的复选标记将其标记为“已回答” - 请参阅What should I do when someone answers my question?

标签： python machine-learning keras word2vec word-embedding

【解决方案1】：

问题在于您以错误的方式考虑嵌入层。 Embedding 层只是一个可训练的查找表：你给它一个整数，它是词在词汇表中的索引，它返回词向量（即词嵌入）给定的索引。因此，它的输入必须是句子中单词的索引。

例如，如果单词“over”、“the”、“to”和“find”的索引分别为 43、6、9 和 33，那么 Embedding 层的输入将是一个数组这些索引，即[43, 6, 9, 33]。因此，训练数据的形状必须为(num_samples, num_words_in_a_sentence)。在您的情况下，它将是(100, 4)。换句话说，您不需要对输入数据的单词进行一次性编码。如果您使用sparse_categorical_crossentropy 作为损失函数，您也可以使用单词索引作为标签。

【讨论】：