【问题标题】:How does gensim calculate doc2vec paragraph vectorsgensim如何计算doc2vec段落向量
【发布时间】:2017-03-17 18:25:24
【问题描述】:

我正在阅读这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf

它指出

" 段落向量和词向量被平均或连接 预测上下文中的下一个单词。在实验中,我们使用 连接作为组合向量的方法。"

连接或平均是如何工作的?

示例(如果第 1 段包含 word1 和 word2):

word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?

同样来自这张图片:

据说:

段落标记可以被认为是另一个词。它作为一个 记住当前上下文中缺少的内容的记忆 - 或 段落的主题。为此,我们常称此模型为 段落向量的分布式记忆模型 (PV-DM)。

段落标记是否等于等于on的段落向量?

【问题讨论】:

    标签: nlp vectorization gensim word2vec doc2vec


    【解决方案1】:

    连接或平均是如何工作的?

    您的平均水平是正确的。串联为:[0.1,0.2,0.3,0.4,0.5,0.6]

    段落标记是否等于等于on的段落向量?

    “段落标记”被映射到一个称为“段落向量”的向量。它不同于token“on”,也不同于token“on”映射到的词向量。

    【讨论】:

      【解决方案2】:

      文本范围的简单(有时有用)向量是文本单词向量的总和或平均值 - 但这不是“段落向量”的“段落向量”纸是。

      相反,Paragraph Vector 是另一个向量,其训练类似于词向量,它也被调整以帮助进行词预测。这些向量与词向量组合(或交错)以提供预测模型。也就是说,平均(在 DM 模式下)包括词向量旁边的 PV - 它不会从词向量组成 PV。

      在图中,on 是被预测的目标词,在该图中,由紧密相邻的词和完整示例的 PV 组合而成,这可能被非正式地认为是一个特殊的伪词,范围超过整个文本示例,参与真实单词的所有滑动“窗口”。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2016-09-17
        • 1970-01-01
        • 2019-08-30
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2017-02-12
        • 1970-01-01
        相关资源
        最近更新 更多