【发布时间】:2021-03-27 12:07:06
【问题描述】:
我有一组描述企业文化不同维度的文件。以下标记化示例:
sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']
我已经将 Glove 和 Gensim w2v 应用于上述文档。我想识别对一组单词具有高余弦相似度得分的文档,例如
Innovation =['innovate','innovative','fast']
如何使用 Gensim 计算每个文档(例如 send1、sent2)和 Innovation 之间的余弦相似度?
理想输出:
innovation
sent1 0.98
sent2 0.45
sent3 -0.2
【问题讨论】: