【问题标题】:Gensim word2vec most_similar filtering by # prefixGensim word2vec most_similar通过#前缀过滤
【发布时间】:2018-06-16 16:24:15
【问题描述】:

我有一个在 twitter 上训练的 word2vec 模型。我使用

将它导入gensim
from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)  

我想用一个类似这个的函数:

word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])

显示最相似的单词,但我想将结果限制为以主题标签开头的单词。 有人可以解释一下我是如何做到这一点的吗?

【问题讨论】:

    标签: python machine-learning nlp word2vec gensim


    【解决方案1】:

    Gensim 索引器在查询邻居时不支持过滤。但是您可以自己进行过滤:

    [item for item in word_vectors.most_similar(positive=['woman', 'king'], 
                                                negative=['man'], 
                                                topn=1000) 
          if item[0].startswith('#')]
    

    【讨论】:

      猜你喜欢
      • 2019-07-01
      • 1970-01-01
      • 1970-01-01
      • 2018-07-21
      • 2020-01-30
      • 2021-10-11
      • 1970-01-01
      • 1970-01-01
      • 2022-01-13
      相关资源
      最近更新 更多