【发布时间】:2015-12-24 03:08:01
【问题描述】:
我从我的数据中构建了一个doc2vec 模型,现在我在运行时有一个不属于训练数据集的新句子。
如何从我的模型中为这句话构建或预测向量?
这句话中的生词应该怎么处理?
【问题讨论】:
标签: python machine-learning nlp gensim word2vec
我从我的数据中构建了一个doc2vec 模型,现在我在运行时有一个不属于训练数据集的新句子。
如何从我的模型中为这句话构建或预测向量?
这句话中的生词应该怎么处理?
【问题讨论】:
标签: python machine-learning nlp gensim word2vec
Gensim(开发版)似乎有一种方法来推断新句子的向量。查看https://github.com/gojomo/gensim/blob/develop/gensim/models/doc2vec.py中的model.infer_vector(NewDocument)方法
【讨论】:
infer_vector() 在 gensim 的最后几个官方版本中可用。此外,doc2vec 算法涉及一些随机性。如果您使用负采样,则可以在每次调用/迭代时尝试一组不同的负示例。从 'window' 参数中,算法(从 word2vec 继承)选择一些随机较小的窗口,直到您选择的值。因此,如果不采取额外步骤,重复推理(如重复训练运行)将给出相似但不相同的结果。如果您需要完美的重现性,请参阅github.com/piskvorky/gensim/issues/447 的一些讨论