【问题标题】:KMeans clustering for more than 5 million vectors超过 500 万个向量的 KMeans 聚类
【发布时间】:2025-12-04 23:00:02
【问题描述】:

我遇到了一个真正的问题。我需要对 500 万个向量进行一些 Kmeans 聚类,每个向量包含大约 32 个列。 我尝试了需要 linux 的 Mahout,并且我在 Windows 上,我被限制使用 Linux 操作系统和任何类型的模拟器。

谁能推荐一种 KMeans 聚类算法,该算法可扩展到 5M 向量并且可以快速收敛?

我已经测试了一些,但它们无法扩展。这意味着它们很慢并且需要很长时间才能完成。

谢谢

【问题讨论】:

  • 多少个集群?欧几里得,还是自定义指标?

标签: algorithm cluster-analysis


【解决方案1】:

好的,所以谁想要对大规模数据集进行聚类,唯一的方法就是使用 Mahout。 IT 需要一个 linux 平台。所以我不得不使用虚拟盒子,在上面放置 Ubuntu,然后使用 Mahout。设置 Mahout 的过程很长,但我使用的两个链接如下。

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)

【讨论】:

  • 链接不再正确,但您可以通过 google 轻松找到这些指南。
  • 结束括号应该是 URL 的一部分。在上面你可以看到它目前没有作为 URL 的一部分突出显示。在浏览器中添加何时 url 并将带您到页面