【问题标题】:Calculate cosine similarity between sets of document and key words (e.g. "innovate' "fast")计算文档集和关键词之间的余弦相似度(例如“创新”“快速”)
【发布时间】:2021-03-27 12:07:06
【问题描述】:

我有一组描述企业文化不同维度的文件。以下标记化示例:

sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']

我已经将 Glove 和 Gensim w2v 应用于上述文档。我想识别对一组单词具有高余弦相似度得分的文档,例如 Innovation =['innovate','innovative','fast']

如何使用 Gensim 计算每个文档(例如 send1、sent2)和 Innovation 之间的余弦相似度?

理想输出:

       innovation
sent1  0.98
sent2  0.45
sent3  -0.2

【问题讨论】:

    标签: python nlp gensim


    【解决方案1】:

    关于“文档集之间的余弦相似度”有不同的方法。您可以阅读一些解决方案here

    但如果你想计算两个单词之间的 CS,你可以这样做(ab 是你的向量):

    from numpy import dot
    from numpy.linalg import norm
    
    cos_sim = dot(a, b)/(norm(a)*norm(b))
    

    【讨论】:

    • 谢谢,我想计算两个句子之间的相似度。 (例如 sent1 和“创新”词列表0
    • 所以你的答案在链接上。 @Yvonne
    猜你喜欢
    • 2017-03-19
    • 2020-01-25
    • 2018-07-28
    • 2021-04-02
    • 1970-01-01
    • 2019-05-14
    • 2014-02-25
    • 2019-04-12
    • 2013-06-24
    相关资源
    最近更新 更多