什么是神经网络上下文中的投影层？答案

【问题标题】：What is a projection layer in the context of neural networks?什么是神经网络上下文中的投影层？
【发布时间】：2016-10-19 18:49:29
【问题描述】：

我目前正在尝试了解 word2vec 神经网络学习算法背后的架构，用于根据上下文将单词表示为向量。

在阅读Tomas Mikolov paper 之后，我发现了他定义的投影层。尽管这个术语在提到 word2vec 时被广泛使用，但我无法找到它在神经网络上下文中实际含义的精确定义。

我的问题是，在神经网络环境中，什么是投影层？它是给与先前节点的链接共享相同权重的隐藏层的名称吗？它的单位真的有某种激活功能吗？

另一个更广泛地涉及该问题的资源可以在this tutorial 中找到，它也涉及到第 67 页周围的投影层。

【问题讨论】：

“本教程”链接失效！
“Using Neural Networks for Modeling and Representing Natural Languages”教程链接，问题中的那个不起作用：site.uottawa.ca/~diana/csi5386/…

标签： machine-learning nlp neural-network word2vec

【解决方案1】：

continuous bag of words 用于在给定其先前和未来条目的情况下预测单个单词：因此它是一个上下文结果。

输入是来自先前和未来条目的计算权重：并且都被赋予相同的新权重：因此该模型的复杂性/特征计数远小于许多其他 NN 架构。

RE：what is the projection layer：来自您引用的论文

非线性隐藏层被移除，投影层被移除为所有单词共享（不仅仅是投影矩阵）；因此，所有的词被投影到相同的位置（它们的向量被平均）。

所以投影层是单组shared weights，并没有指明激活函数。

注意输入层和投影层之间的权重矩阵以与 NNLM 中相同的方式共享所有单词位置

所以hidden layer 实际上由这组共享权重表示 - 正如您正确暗示的那样，所有输入节点都是相同的。

【讨论】：

【解决方案2】：

投影层将 n-gram 上下文的离散词索引映射到连续向量空间。

正如thesis中所解释的那样

投影层是共享的，因此对于多次包含相同单词的上下文，应用相同的权重集来形成投影向量的每个部分。该组织有效地增加了可用于训练投影层权重的数据量，因为每个上下文训练模式的每个词都单独对权重值做出了贡献。

此图显示了如何通过从投影层权重矩阵复制列来有效地组装投影层的输出的简单拓扑。

现在，隐藏层：

隐藏层处理投影层的输出，也是用一个拓扑配置文件中指定的神经元数量。

编辑：解释图中发生的事情

投影层中的每个神经元都由多个与词汇表大小相等的权重表示。投影层与隐藏层和输出层的不同之处在于不使用非线性激活函数。它的目的只是提供一种有效的方法，将给定的 ngram 上下文投影到缩减的连续向量空间上，以供经过训练以对此类向量进行分类的隐藏层和输出层进行后续处理。给定输入向量元素的一或零性质，索引为 i 的特定单词的输出只是经过训练的投影层权重矩阵的第 i 列（其中矩阵的每一行表示单个神经元的权重)。

【讨论】：

您好，论文链接失效了。你介意帮忙解决吗？
链接已损坏。

【解决方案3】：

我发现这里之前的答案有点过于复杂 - 投影层只是一个简单的矩阵乘法，或者在 NN 的上下文中，一个规则/密集/线性层，最终没有非线性激活（sigmoid/ tanh/relu/etc.）这个想法是将（例如）100K 维离散向量投影到 600 维连续向量中（我在这里随机选择了数字，“你的里程可能会有所不同”） .确切的矩阵参数是通过训练过程学习的。

之前/之后发生的事情已经取决于模型和上下文，而不是 OP 所要求的。

（在practice 中，您甚至不必为矩阵乘法而烦恼（因为您正在乘以一个 1-hot 向量，其中单词索引为 1，其他地方为 0），并将训练后的矩阵视为了望表（即语料库中的第 6257 个单词 = 投影矩阵中的第 6257 行/列（取决于您如何定义）。）

【讨论】：

这应该是公认的答案。简单明了的回答，并解释为什么叫“投影”；它只是将高维向量投影到低维空间。
矩阵乘法后是否添加偏置参数？
@AshishAggarwal 我不知道。