【问题标题】:Dissimilar Features between two documents两个文档之间的不同特征
【发布时间】:2018-07-03 09:10:04
【问题描述】:

我试图找出两个文档之间的不同之处。我正在使用 gensim,到目前为止已经获得了相似度分数。

有没有办法知道两个文档之间的差异分数和不同特征? 又该如何评价?

【问题讨论】:

  • 对于一个通用域,你不认为 (1 - cosine_similarity) 可以衡量不同程度吗?
  • 谢谢。这是我到目前为止所评估的。但我一直无法找出不同的特征。

标签: nlp nltk gensim cosine-similarity


【解决方案1】:

使用词向量的余弦相似度给出了两个句子之间的语义相似度。首先,让我们了解这是如何计算的。假设有两个向量代表两个文本文档,

那么向量的点积由下式给出

.

在几何上,theta 表示平面上 ab 向量之间的角度。所以,角度越小,相似度越高。因此,余弦相似度方法报告了这种角度测量。现在从几何上讲,如果两个向量之间的差异较小,则角度较小,因此余弦相似度较高。如果角度远近 90',则其余弦值接近于零。

因此,余弦相似度的低分数表示不相关的向量。当然,在文本文档的情况下,不相关的向量可能是衡量不同程度的指标。否则,如果角度接近180',则余弦相似度将接近1,但会被否定。这可能意味着两个文档具有相反的含义。这又是一种不同类型的差异。

总而言之,您可以根据您的应用使用不相关和相反的向量来衡量相异性。 您还可以考虑语法差异,例如依赖项解析树、命名实体等方面的差异。但同样不知道您究竟想要实现什么,很难建议单一方法。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-08-17
    • 2019-04-19
    • 2017-02-24
    • 2014-03-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多