超过 500 万个向量的 KMeans 聚类

【问题标题】：KMeans clustering for more than 5 million vectors超过 500 万个向量的 KMeans 聚类
【发布时间】：2025-12-04 23:00:02
【问题描述】：

我遇到了一个真正的问题。我需要对 500 万个向量进行一些 Kmeans 聚类，每个向量包含大约 32 个列。我尝试了需要 linux 的 Mahout，并且我在 Windows 上，我被限制使用 Linux 操作系统和任何类型的模拟器。

谁能推荐一种 KMeans 聚类算法，该算法可扩展到 5M 向量并且可以快速收敛？

我已经测试了一些，但它们无法扩展。这意味着它们很慢并且需要很长时间才能完成。

谢谢

【问题讨论】：

【解决方案1】：

好的，所以谁想要对大规模数据集进行聚类，唯一的方法就是使用 Mahout。 IT 需要一个 linux 平台。所以我不得不使用虚拟盒子，在上面放置 Ubuntu，然后使用 Mahout。设置 Mahout 的过程很长，但我使用的两个链接如下。

【讨论】：