【问题标题】:how to do clustering with similarity as a measure?如何以相似度为度量进行聚类?
【发布时间】:2012-07-17 21:03:03
【问题描述】:

我读过关于球面 kmeans 的文章,但我没有遇到过实现。要明确的是,相似性很简单,是两个文档单位向量的点积。我读过标准 k 均值使用距离作为度量。距离被指定为矢量距离,就像在坐标几何 sqrt((x2 -x1)^2 + (y2-y1)^2) 中一样?

【问题讨论】:

    标签: cluster-analysis cosine-similarity


    【解决方案1】:

    有比 k-means 更多的聚类方法。 k-means 的问题与其说是建立在欧几里得距离上,不如说是 mean 必须减少算法收敛的距离。

    但是,有 其他聚类算法不需要计算均值或存在三角不等式。如果您阅读有关 DBSCAN 的 Wikipedia 文章,它还提到了一个名为 GDBSCAN,Generalized DBSCAN 的版本。您绝对应该能够将相似函数插入 GDBSCAN。最有可能的是,您可以只使用 1/similarity 并将其用作距离函数,除非该算法需要三角不等式。所以这个技巧应该适用于 DBSCAN 和 OPTICS,例如。可能还有层次聚类、k-medians 和 k-medoids (PAM)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-10-17
      • 2015-04-15
      • 2021-04-19
      • 2012-09-30
      • 2012-06-24
      • 2018-08-26
      • 2021-10-28
      相关资源
      最近更新 更多