【发布时间】:2016-06-27 09:37:20
【问题描述】:
我正在努力在 Python 中实现 k-means 聚类。为数据集选择初始质心的好方法是什么?例如:我有以下数据集:
A,1,1
B,2,1
C,4,4
D,4,5
我需要创建两个不同的集群。我如何从质心开始?
【问题讨论】:
标签: python cluster-analysis data-mining k-means centroid
我正在努力在 Python 中实现 k-means 聚类。为数据集选择初始质心的好方法是什么?例如:我有以下数据集:
A,1,1
B,2,1
C,4,4
D,4,5
我需要创建两个不同的集群。我如何从质心开始?
【问题讨论】:
标签: python cluster-analysis data-mining k-means centroid
您可能想了解K-means++ 方法,因为它是选择初始质心的最流行、最简单且结果一致的方法之一。这里有paper。它的工作原理如下:
x,计算D(x),x 与已选择的最近中心之间的距离。x 的选择概率与D(x)^2 成正比(您可以为此使用scipy.stats.rv_discrete)。k 中心。【讨论】:
random.sample(set('ABCD'), 1)的事情。
标准的初始化是简单的
还有更多方法(例如 k-means++),但它们通常不能始终如一地产生比此基线更好的结果。诸如 k-means++ 之类的方法有时效果很好,但也经常不会产生任何改进;但是需要花费大量额外的时间来计算。
【讨论】:
如果数据集像您的情况一样小,则 K- 表示本身会选择随机的不同簇,然后重复计算质心以优化质心和点之间的距离。
但是,如果数据集很大,则可以使用称为 sharding 的简单方法代替集群的初始随机化,因为它可以减少优化集群所需的迭代次数,从而节省时间.
你可以应用分片,这里有详细解释
【讨论】:
一个标准的初始化是将每个数据点随机分配给集群,然后只计算这些随机集群的均值。
另一种方法是只选择k 随机数据点,其中k 是集群的数量,这些是你的手段。这有时被称为 Forgy 方法。
【讨论】: