【问题标题】:Cosine similarity alternative for tf-idf (triangle inequality)tf-idf(三角不等式)的余弦相似度替代
【发布时间】:2017-09-05 03:15:22
【问题描述】:

我正在尝试使用 tf-idf 来聚类类似的文档。我的系统的主要缺点之一是它使用余弦相似度来决定哪些向量应该组合在一起。

问题是余弦相似度不满足三角不等式。因为在我的情况下,我不能在多个集群中拥有相同的向量,我必须将每个集群与一个共同的元素合并,这可能会导致两个文档被组合在一起,即使它们彼此不相似。

是否有另一种方法可以衡量两个文档的相似性,以便:

  • 无论大小如何,向量都会根据其方向得分非常相似
  • 满足三角不等式:如果 A 与 B 相似,B 与 C 相似,则 A 也与 C 相似

【问题讨论】:

  • 我不确定我是否正确:三角不等式还是等式?但是,在这里你有我关于不同相似性模型和术语权重的注释(为大多数模型提供了来源/引用,所以你可以研究更多):blog.veles.rs/…blog.veles.rs/term-weighting-methods-literature-overview这两个列表都在不断建设中,因为我使用它们作为文学中新发现的方法(我的上帝:广阔的宇宙!)的个人日记。

标签: nlp cluster-analysis information-retrieval tf-idf cosine-similarity


【解决方案1】:

不确定它是否可以帮助您。看看本文中的TS-SS 方法。它涵盖了 Cosine 和 ED 的一些缺点,这有助于更准确地识别向量之间的相似性。更高的准确性有助于您了解哪些文档高度相似并且可以组合在一起。该论文说明了为什么 TS-SS 可以帮助您。

【讨论】:

    【解决方案2】:

    余弦是归一化数据的欧几里得平方。

    因此,只需 L2 将您的向量标准化为单位长度,并使用欧几里得。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-11-20
      • 1970-01-01
      • 2017-02-03
      • 2017-05-16
      • 2013-02-03
      • 1970-01-01
      • 2013-10-16
      • 1970-01-01
      相关资源
      最近更新 更多