小批量 k-means 返回少于 k 个集群答案

【问题标题】：Mini-batch k-means returns less than k clusters小批量 k-means 返回少于 k 个集群
【发布时间】：2014-09-15 03:51:12
【问题描述】：

我一直在与 mini-batch k-means 合作，使用 scikit-learn 实现对大约 45000 个观测值的数据集进行聚类，每个观测值大约有 170 个特征。我注意到，随着 k 的增加，该算法无法返回指定数量的集群，如果 k 超过数据集中观察数量的 30%（45000 的 30%）并继续增加，则返回的集群数量确实不再增加。

我想知道这是否与算法在 scikit-learn 中实现的方式有关，或者它是否与它的定义有关。我一直在研究提出它的论文，但我不知道为什么会发生这种情况。

有人经历过吗？有谁现在如何解释这种行为？

【问题讨论】：

您使用的是哪个版本的 scikit-learn？ batch_size 是多少？为了使算法正常工作，batch_size 应该显着大于集群的数量。你没有收到任何警告信息吗？
我总是使用比k大得多的batch_size，但我想如果k与数据集大小相比已经非常大，那么batch_size永远不会足够大。这可能是一种解释。

标签： cluster-analysis scikit-learn k-means

【解决方案1】：

k-means 可能会失败，因为 集群可能会消失。

当您有很多重复项时，这一点最为明显。

如果您的所有数据点都相同，为什么应该有多个（非空）集群？

据我所知，它并不特定于小批量 k 均值。某些实现允许您指定集群退化时要执行的操作，例如使用最远的点作为新的聚类中心，丢弃聚类，或者保持不变（可能会再次拾取一个点）。

【讨论】：

【解决方案2】：

如果您使用 K-means，您需要告诉算法要使用的集群数量，它无法自行判断。

通过使用距离函数实现的聚类方法，以便使用定义的度量（如 eucludian）找到（全局但不是真正的）最小值。您遇到的问题与如何确定集群数量有关，这是一个启发式问题，因为当您增加要使用的集群数量时，目标函数下降得更快，因此增加集群数量不会让您找到最优数据集中的集群。你会被没有真正不同的嘈杂集群卡住。

您可以参考 Jain, A. K. (2010)。数据聚类：超越 K-means 的 50 年。模式识别快报，31（8），651-666。关于这个问题。

【讨论】：