【发布时间】:2017-09-05 03:15:22
【问题描述】:
我正在尝试使用 tf-idf 来聚类类似的文档。我的系统的主要缺点之一是它使用余弦相似度来决定哪些向量应该组合在一起。
问题是余弦相似度不满足三角不等式。因为在我的情况下,我不能在多个集群中拥有相同的向量,我必须将每个集群与一个共同的元素合并,这可能会导致两个文档被组合在一起,即使它们彼此不相似。
是否有另一种方法可以衡量两个文档的相似性,以便:
- 无论大小如何,向量都会根据其方向得分非常相似
- 满足三角不等式:如果 A 与 B 相似,B 与 C 相似,则 A 也与 C 相似
【问题讨论】:
-
我不确定我是否正确:三角不等式还是等式?但是,在这里你有我关于不同相似性模型和术语权重的注释(为大多数模型提供了来源/引用,所以你可以研究更多):blog.veles.rs/…blog.veles.rs/term-weighting-methods-literature-overview这两个列表都在不断建设中,因为我使用它们作为文学中新发现的方法(我的上帝:广阔的宇宙!)的个人日记。
标签: nlp cluster-analysis information-retrieval tf-idf cosine-similarity