Gensim word2vec most_similar通过#前缀过滤答案

【问题标题】：Gensim word2vec most_similar filtering by # prefixGensim word2vec most_similar通过#前缀过滤
【发布时间】：2018-06-16 16:24:15
【问题描述】：

我有一个在 twitter 上训练的 word2vec 模型。我使用

将它导入gensim

from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)

我想用一个类似这个的函数：

word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])

显示最相似的单词，但我想将结果限制为以主题标签开头的单词。有人可以解释一下我是如何做到这一点的吗？

【问题讨论】：

标签： python machine-learning nlp word2vec gensim

【解决方案1】：

Gensim 索引器在查询邻居时不支持过滤。但是您可以自己进行过滤：

[item for item in word_vectors.most_similar(positive=['woman', 'king'], 
                                            negative=['man'], 
                                            topn=1000) 
      if item[0].startswith('#')]

【讨论】：