【问题标题】:Seeking a cluster centre that is a point in my cluster寻找一个集群中心,它是我集群中的一个点
【发布时间】:2016-04-10 15:13:09
【问题描述】:
我目前正在使用 python 包 sklearn.cluster 对 3D 坐标点进行一些聚类分析。
我使用了 K-mean 聚类,它输出计算的聚类中心。我真正想要的是该集群的哪个数据点与该集群中的所有其他数据点的距离最小。我猜这将是我的数据集中最接近集群中心的点,但由于我的数据集很大,因此使用某种最小化搜索算法并不实际。对其他聚类方法或其他 python 脚本有什么建议可以帮助我找到这个吗?
【问题讨论】:
标签:
python
scikit-learn
cluster-analysis
【解决方案1】:
找到离中心最近的对只需要 O(n),因此与 k-means 的再一次迭代一样便宜——还不错。
它比平均值更糟,但你最好的猜测。
注意:它有不是最小的平均距离(欧几里得)。
均值是最小二乘最优,它具有最小二乘偏差(即欧几里得平方)。
这是平均值和中位数之间的差值。 中位数是最中心的数据点;不是意思。但是找到中位数比计算平均值要昂贵得多。
证明最接近均值的点将具有所有数据点的最小二乘偏差应该不难(尝试表明具有较小 RMSD 的点必须更接近)。