计算文档集和关键词之间的余弦相似度（例如“创新”“快速”）答案

【问题标题】：Calculate cosine similarity between sets of document and key words (e.g. "innovate' "fast")计算文档集和关键词之间的余弦相似度（例如“创新”“快速”）
【发布时间】：2021-03-27 12:07:06
【问题描述】：

我有一组描述企业文化不同维度的文件。以下标记化示例：

sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']

我已经将 Glove 和 Gensim w2v 应用于上述文档。我想识别对一组单词具有高余弦相似度得分的文档，例如 Innovation =['innovate','innovative','fast']

如何使用 Gensim 计算每个文档（例如 send1、sent2）和 Innovation 之间的余弦相似度？

理想输出：

       innovation
sent1  0.98
sent2  0.45
sent3  -0.2

【问题讨论】：

标签： python nlp gensim

【解决方案1】：

关于“文档集之间的余弦相似度”有不同的方法。您可以阅读一些解决方案here。

但如果你想计算两个单词之间的 CS，你可以这样做（a 和 b 是你的向量）：

from numpy import dot
from numpy.linalg import norm

cos_sim = dot(a, b)/(norm(a)*norm(b))

【讨论】：

谢谢，我想计算两个句子之间的相似度。（例如 sent1 和“创新”词列表0
所以你的答案在链接上。 @Yvonne