【发布时间】:2017-10-17 21:21:18
【问题描述】:
我正在使用像 DBSCAN 这样的聚类算法。
它返回一个名为-1 的“集群”,它们是不属于任何集群的点。对于这些点,我想确定从它到最近集群的距离,以获得类似于该点异常程度的指标。这可能吗?或者这种指标有什么替代品吗?
【问题讨论】:
-
你想如何测量到集群的距离?有很多选择:单链接表示到集群的距离是到其最近成员的距离。完整的链接表示它是到最远成员的距离。有平均的联系,沃德的联系……你要干什么?
-
我的第一个直觉是
single linkage听起来是一个很好的指标,这也是我的想法。但很高兴知道有不同的指标,谢谢。 -
如果我理解正确,您想确定噪声点到集群最近点的距离(因为您使用单链接)对吗?如果是这样,您可以通过sklearn.metrics.pairwise.euclidean_distances 计算噪声点和聚类点之间的欧几里得距离。欧几里得距离应该很好用,因为它也是 DBSCAN 中最常用的距离度量。
标签: python machine-learning scikit-learn cluster-analysis data-mining