【发布时间】:2018-05-10 11:09:32
【问题描述】:
我有两个使用 word2vec 算法创建的不同词向量模型。现在我面临的问题是第二个模型中没有第一个模型的几个词。我想从两个不同的词向量模型创建第三个模型,我可以在其中使用两个模型中的词向量,而不会失去词向量的含义和上下文。
我可以这样做吗?如果可以,怎么做?
【问题讨论】:
-
你的问题是?
标签: machine-learning nlp word2vec gensim
我有两个使用 word2vec 算法创建的不同词向量模型。现在我面临的问题是第二个模型中没有第一个模型的几个词。我想从两个不同的词向量模型创建第三个模型,我可以在其中使用两个模型中的词向量,而不会失去词向量的含义和上下文。
我可以这样做吗?如果可以,怎么做?
【问题讨论】:
标签: machine-learning nlp word2vec gensim
您可以仅将一个模型中的单词向量翻译到另一个模型的坐标空间,使用其他共享单词来学习翻译函数。
在最近的 gensim 版本中有一个功能可以做到这一点 - 请参阅 TranslationMatrix 工具。 docs/notebooks 目录中包含一个演示 Jupyter 笔记本,可在线查看:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/translation_matrix.ipynb
您可能会采用 更大 模型(或任何被认为 更好 的模型,可能是因为它接受了更多数据的训练),并转换较小的数字词它丢失到它的空间。您将尽可能多地使用常用的“锚”字。
【讨论】: