【发布时间】:2017-03-17 18:25:24
【问题描述】:
我正在阅读这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf
它指出
" 段落向量和词向量被平均或连接 预测上下文中的下一个单词。在实验中,我们使用 连接作为组合向量的方法。"
连接或平均是如何工作的?
示例(如果第 1 段包含 word1 和 word2):
word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]
concat method
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?
Average method
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?
同样来自这张图片:
据说:
段落标记可以被认为是另一个词。它作为一个 记住当前上下文中缺少的内容的记忆 - 或 段落的主题。为此,我们常称此模型为 段落向量的分布式记忆模型 (PV-DM)。
段落标记是否等于等于on的段落向量?
【问题讨论】:
标签: nlp vectorization gensim word2vec doc2vec