【发布时间】:2019-11-21 18:13:37
【问题描述】:
我正在尝试构建一个包含大约 10k 个句子的 doc2vec 模型,之后我将使用该模型在一些新句子的模型中找到最相似的句子。
我已经使用我拥有的语料库(10k 个句子)训练了一个 gensim doc2vec 模型。这个模型可以在某种程度上告诉我一个新句子是否与语料库中的某些句子相似。 但是,有一个问题:新句子中可能会出现语料库中不存在的单词,这意味着它们没有词嵌入。如果发生这种情况,预测结果将不会很好。 据我所知,经过训练的 doc2vec 模型确实有一个 doc 向量矩阵和一个词向量矩阵。所以我想的是加载一组预先训练好的词向量,其中包含大量的词,然后训练模型得到文档向量。是否有意义? gensim可以吗?或者有其他方法吗?
【问题讨论】: