创建一个结合来自其他模型的词的词向量模型

【问题标题】：Creating a wordvector model combining words from other models创建一个结合来自其他模型的词的词向量模型
【发布时间】：2018-05-10 11:09:32
【问题描述】：

我有两个使用 word2vec 算法创建的不同词向量模型。现在我面临的问题是第二个模型中没有第一个模型的几个词。我想从两个不同的词向量模型创建第三个模型，我可以在其中使用两个模型中的词向量，而不会失去词向量的含义和上下文。

我可以这样做吗？如果可以，怎么做？

【问题讨论】：

【解决方案1】：

您可以仅将一个模型中的单词向量翻译到另一个模型的坐标空间，使用其他共享单词来学习翻译函数。

在最近的 gensim 版本中有一个功能可以做到这一点 - 请参阅 TranslationMatrix 工具。 docs/notebooks 目录中包含一个演示 Jupyter 笔记本，可在线查看：

您可能会采用更大模型（或任何被认为更好的模型，可能是因为它接受了更多数据的训练），并转换较小的数字词它丢失到它的空间。您将尽可能多地使用常用的“锚”字。

【讨论】：