【发布时间】:2017-12-15 17:04:54
【问题描述】:
对于 gensim(1.0.1) doc2vec,我正在尝试加载 google 预训练的词向量,而不是使用 Doc2Vec.build_vocab
wordVec_google = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
model0 = Doc2Vec(size=300, alpha=0.05, min_alpha=0.05, window=8, min_count=5, workers=4, dm=0, hs=1)
model0.wv = wordVec_google
##some other code
model0.build_vocab(sentences=allEmails, max_vocab_size = 20000)
但是这个对象model0 不能用“labeled Docs”进一步训练,也不能推断文档的向量。
有人知道如何将 doc2vec 与谷歌预训练的词向量一起使用吗?
我试过这个帖子:http://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/
但是加载到gensim.models.Word2Vec对象中不起作用,可能是不同的gensim版本。
【问题讨论】:
-
一个类似的问题有几个关于如何将预训练向量加载到 Doc2Vec 模型中的答案:stackoverflow.com/questions/27470670/…
标签: gensim