【问题标题】:Building Vector for a sentence in doc2vec from an untrained data set从未经训练的数据集中为 doc2vec 中的句子构建向量
【发布时间】:2015-12-24 03:08:01
【问题描述】:

我从我的数据中构建了一个doc2vec 模型,现在我在运行时有一个不属于训练数据集的新句子。

如何从我的模型中为这句话构建或预测向量?

这句话中的生词应该怎么处理?

【问题讨论】:

    标签: python machine-learning nlp gensim word2vec


    【解决方案1】:

    Gensim(开发版)似乎有一种方法来推断新句子的向量。查看https://github.com/gojomo/gensim/blob/develop/gensim/models/doc2vec.py中的model.infer_vector(NewDocument)方法

    【讨论】:

    • 它不会影响我的模型..我使用它,但有时它会为同一个句子返回不同的向量。
    • infer_vector() 在 gensim 的最后几个官方版本中可用。此外,doc2vec 算法涉及一些随机性。如果您使用负采样,则可以在每次调用/迭代时尝试一组不同的负示例。从 'window' 参数中,算法(从 word2vec 继承)选择一些随机较小的窗口,直到您选择的值。因此,如果不采取额外步骤,重复推理(如重复训练运行)将给出相似但不相同的结果。如果您需要完美的重现性,请参阅github.com/piskvorky/gensim/issues/447 的一些讨论
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-07-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-12-06
    • 2020-12-24
    相关资源
    最近更新 更多