【发布时间】:2025-12-04 23:00:02
【问题描述】:
我遇到了一个真正的问题。我需要对 500 万个向量进行一些 Kmeans 聚类,每个向量包含大约 32 个列。 我尝试了需要 linux 的 Mahout,并且我在 Windows 上,我被限制使用 Linux 操作系统和任何类型的模拟器。
谁能推荐一种 KMeans 聚类算法,该算法可扩展到 5M 向量并且可以快速收敛?
我已经测试了一些,但它们无法扩展。这意味着它们很慢并且需要很长时间才能完成。
谢谢
【问题讨论】:
-
多少个集群?欧几里得,还是自定义指标?
标签: algorithm cluster-analysis