如何以相似度为度量进行聚类？

【问题标题】：how to do clustering with similarity as a measure?如何以相似度为度量进行聚类？
【发布时间】：2012-07-17 21:03:03
【问题描述】：

我读过关于球面 kmeans 的文章，但我没有遇到过实现。要明确的是，相似性很简单，是两个文档单位向量的点积。我读过标准 k 均值使用距离作为度量。距离被指定为矢量距离，就像在坐标几何 sqrt((x2 -x1)^2 + (y2-y1)^2) 中一样？

【问题讨论】：

标签： cluster-analysis cosine-similarity

【解决方案1】：

有比 k-means 更多的聚类方法。 k-means 的问题与其说是建立在欧几里得距离上，不如说是 mean 必须减少算法收敛的距离。

但是，有吨其他聚类算法不需要计算均值或存在三角不等式。如果您阅读有关 DBSCAN 的 Wikipedia 文章，它还提到了一个名为 GDBSCAN，Generalized DBSCAN 的版本。您绝对应该能够将相似函数插入 GDBSCAN。最有可能的是，您可以只使用 1/similarity 并将其用作距离函数，除非该算法需要三角不等式。所以这个技巧应该适用于 DBSCAN 和 OPTICS，例如。可能还有层次聚类、k-medians 和 k-medoids (PAM)。

【讨论】：