Doc2Vec生成的文档向量会和Word2Vec得到的文档向量相似吗？答案

【问题标题】：Will the document vectors generated by Doc2Vec be similar to document vectors obtained through Word2Vec?Doc2Vec生成的文档向量会和Word2Vec得到的文档向量相似吗？
【发布时间】：2020-07-15 15:31:37
【问题描述】：

我看到几篇博客文章说，文档向量不仅可以通过 Doc2Vec 生成，还可以通过对运行 Word2vec 算法获得的词向量进行平均来生成。在那种情况下，通过两种算法生成的向量是否相同？哪种方法是生成文档向量的最有效方法，为什么？

这方面的任何参考链接都会有很大帮助！

提前致谢

【问题讨论】：

标签： nlp word2vec word-embedding doc2vec

【解决方案1】：

这是为一组词创建向量的两种不同方法。

向量将位于不同的位置，具有不同的质量。

平均速度非常快，尤其是在您已经有了词向量的情况下。但这是一种非常简单的方法，不会捕捉到许多不同的含义——事实上，它完全忽略了词序/相对接近度，平均化的行为可能会“抵消”文本中的对比含义。

Doc2Vec 以与词向量非常相似的方式训练全文向量（通常与词向量一起）。本质上，分配给文本的假装词“浮动”在词向量训练旁边，就好像它“接近”所有其他词训练（对于那个文本）。这是一种稍微复杂的方法，但由于它对相同数据使用非常相似的算法（和模型复杂性），因此许多下游评估的结果通常是相似的。

如语法规则和更高级的语言使用所暗示的那样，要获得捕捉更微妙含义的摘要文本向量，可能需要更复杂的方法，例如采用更大深度网络的方法。

没有一种最有效的方法，因为所有实际用途在很大程度上取决于文本的类型、数量和质量，以及向量的预期用途。

【讨论】：

所以@gojomo 总的来说，我可以说平均词向量来生成文档向量是 doc2vec 的替代方法，但我们选择的方法取决于您提到的各种因素？
是的，它们是备选方案，但有些项目可能会根据其数据/目标/限制选择其中一个。（一个项目也可以使用两者的连接！）还有平均的变体——例如基于单词重要性的加权平均。