【发布时间】:2020-07-15 15:31:37
【问题描述】:
我看到几篇博客文章说,文档向量不仅可以通过 Doc2Vec 生成,还可以通过对运行 Word2vec 算法获得的词向量进行平均来生成。 在那种情况下,通过两种算法生成的向量是否相同? 哪种方法是生成文档向量的最有效方法,为什么?
这方面的任何参考链接都会有很大帮助!
提前致谢
【问题讨论】:
标签: nlp word2vec word-embedding doc2vec
我看到几篇博客文章说,文档向量不仅可以通过 Doc2Vec 生成,还可以通过对运行 Word2vec 算法获得的词向量进行平均来生成。 在那种情况下,通过两种算法生成的向量是否相同? 哪种方法是生成文档向量的最有效方法,为什么?
这方面的任何参考链接都会有很大帮助!
提前致谢
【问题讨论】:
标签: nlp word2vec word-embedding doc2vec
这是为一组词创建向量的两种不同方法。
向量将位于不同的位置,具有不同的质量。
平均速度非常快,尤其是在您已经有了词向量的情况下。但这是一种非常简单的方法,不会捕捉到许多不同的含义——事实上,它完全忽略了词序/相对接近度,平均化的行为可能会“抵消”文本中的对比含义。
Doc2Vec 以与词向量非常相似的方式训练全文向量(通常与词向量一起)。本质上,分配给文本的假装词“浮动”在词向量训练旁边,就好像它“接近”所有其他词训练(对于那个文本)。这是一种稍微复杂的方法,但由于它对相同数据使用非常相似的算法(和模型复杂性),因此许多下游评估的结果通常是相似的。
如语法规则和更高级的语言使用所暗示的那样,要获得捕捉更微妙含义的摘要文本向量,可能需要更复杂的方法,例如采用更大深度网络的方法。
没有一种最有效的方法,因为所有实际用途在很大程度上取决于文本的类型、数量和质量,以及向量的预期用途。
【讨论】: