从 deeplearning4j 和 word2vec 获得不同的结果答案

【问题标题】：Getting different results from deeplearning4j and word2vec从 deeplearning4j 和 word2vec 获得不同的结果
【发布时间】：2015-12-21 08:19:51
【问题描述】：

我使用 Google 的 word2vec 训练了一个词嵌入模型。输出是一个包含单词及其向量的文件。

我在 deeplearning4j 中加载了这个经过训练的模型。

    WordVectors vec = WordVectorSerializer.loadTxtVectors(new File("vector.txt"));
    Collection<String> lst = vec.wordsNearest("someWord", 10);

但是从deeplearing4j的包和word2vec的距离函数得到的两个相似词列表是完全不同的，虽然我使用的是同一个向量文件。

有人对 deeplaring4j 中的工作原理以及这些差异的来源有很好的了解吗？

【问题讨论】：

标签： word2vec

【解决方案1】：

这些列表完全相似吗？哪一组看起来像相似词更合理？

根据我的理解，这些列表应该几乎完全匹配——它们应该在相同的输入向量上实现相同的计算。如果他们不这样做，特别是如果原始 word2vec.c 相似列表看起来更合理，那么我会怀疑 DL4J 中的错误。

if (lookupTable() instanceof InMemoryLookupTable) {...} 分支的代码可能是正确的——我不熟悉 nd4j API——但对于计算排名余弦相似度值来说似乎过于华丽；
后面的后备情况似乎没有使用单位向量归一化向量值（通常情况下）——它使用getWordVectorMatrix()而不是getWordVectorMatrixNormalized()

【讨论】：

【解决方案2】：

您从不同的实现中获得不同的向量可能有多种原因（因此相似词的差异）。我可以提几个

如果您的文档数（训练数据）>> 唯一词数（词汇量），则词的向量将在几次迭代后稳定下来，您可以从两者中找到一些最相似的词，相似。

【讨论】：