【问题标题】:Will the document vectors generated by Doc2Vec be similar to document vectors obtained through Word2Vec?Doc2Vec生成的文档向量会和Word2Vec得到的文档向量相似吗?
【发布时间】:2020-07-15 15:31:37
【问题描述】:

我看到几篇博客文章说,文档向量不仅可以通过 Doc2Vec 生成,还可以通过对运行 Word2vec 算法获得的词向量进行平均来生成。 在那种情况下,通过两种算法生成的向量是否相同? 哪种方法是生成文档向量的最有效方法,为什么?

这方面的任何参考链接都会有很大帮助!

提前致谢

【问题讨论】:

    标签: nlp word2vec word-embedding doc2vec


    【解决方案1】:

    这是为一组词创建向量的两种不同方法。

    向量将位于不同的位置,具有不同的质量。

    平均速度非常快,尤其是在您已经有了词向量的情况下。但这是一种非常简单的方法,不会捕捉到许多不同的含义——事实上,它完全忽略了词序/相对接近度,平均化的行为可能会“抵消”文本中的对比含义。

    Doc2Vec 以与词向量非常相似的方式训练全文向量(通常与词向量一起)。本质上,分配给文本的假装词“浮动”在词向量训练旁边,就好像它“接近”所有其他词训练(对于那个文本)。这是一种稍微复杂的方法,但由于它对相同数据使用非常相似的算法(和模型复杂性),因此许多下游评估的结果通常是相似的。

    如语法规则和更高级的语言使用所暗示的那样,要获得捕捉更微妙含义的摘要文本向量,可能需要更复杂的方法,例如采用更大深度网络的方法。

    没有一种最有效的方法,因为所有实际用途在很大程度上取决于文本的类型、数量和质量,以及向量的预期用途。

    【讨论】:

    • 所以@gojomo 总的来说,我可以说平均词向量来生成文档向量是 doc2vec 的替代方法,但我们选择的方法取决于您提到的各种因素?
    • 是的,它们是备选方案,但有些项目可能会根据其数据/目标/限制选择其中一个。 (一个项目也可以使用两者的连接!)还有平均的变体——例如基于单词重要性的加权平均。
    猜你喜欢
    • 2021-11-20
    • 2019-01-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多