【发布时间】:2020-11-12 13:54:12
【问题描述】:
我正在从事一个实体相似性项目。 word2vec gensim 模型中的most_similar 在这方面工作得很好。但是,我也希望搜索词本身包含在结果中。应该是这样的:
>>> model = Word2Vec(sw_token, min_count=2)
>>> model = gensim.models.KeyedVectors.load("model.bin")
>>> model.wv.most_similar("melanoma", topn=5)
[('melanoma', 1.000000),
('cutaneous', 0.6512814164161682),
('uveal', 0.6295092701911926),
('gp100', 0.617050290107727),
('ligand-bearing', 0.614188551902771)]
官方文件没有显示任何可以帮助我的东西。另外,如果有诸如melanoma xyz 之类的术语,我们如何才能在 most_similar 中得到更接近的词?我知道它将考虑单词,因此两个单词算作 2 而不是一个,因此它们在这里并不相似。也许。谢谢。
【问题讨论】:
标签: python nlp gensim word2vec similarity