python word2vec 使用周围单词的上下文相似度答案

【问题标题】：python word2vec context similarity using surrounding wordspython word2vec 使用周围单词的上下文相似度
【发布时间】：2017-07-15 09:55:41
【问题描述】：

我想使用 w2v 制作的嵌入，以便在给定上下文（周围词）的情况下获得最有可能的替代词，而不是提供单个词。

示例： sentence = '我想明天放学后去公园'

如果我想找到类似于“park”的候选者，通常我会利用 Gensim 模型中的相似性函数

model.most_similar('park')

并获得语义相似的单词。然而，这可以给我类似动词“park”的词，而不是我所追求的名词“park”。

有什么方法可以查询模型并将其周围的单词作为上下文以提供更好的候选者？

【问题讨论】：

【解决方案1】：

Word2vec 主要不是单词预测算法。在内部，它尝试进行半预测，以训练其词向量，但通常这些训练预测并不是词向量所需的最终用途。

也就是说，最近版本的 gensim 添加了一个predict_output_word() 方法，该方法（对于某些模型模式）近似于训练期间所做的预测。它可能对您的目的有用。

或者，检查单词most_similar() 到您的初始目标单词也与上下文单词有些相似可能会有所帮助。

已经有一些关于在词向量训练期间消除多个词义歧义的研究论文（例如“to /park/ a car”与“walk in a /park/”），但我还没有看到它们实现在开源库中。

【讨论】：