【发布时间】:2020-06-27 23:36:49
【问题描述】:
我正在尝试对 1800 万个数据点执行 DBSCAN,到目前为止只是 2D,但希望达到 6D。我还没有找到在这么多点上运行 DBSCAN 的方法。我得到的最接近的是 ELKI 的 100 万,这需要一个小时。我之前使用过 Spark,但不幸的是它没有 DBSCAN 可用。
因此,我的第一个问题是,是否有人可以推荐一种在这么多数据上运行 DBSCAN 的方法,可能是以分布式方式?
接下来,我的数据的性质是约 85% 位于一个巨大的集群中(异常检测)。我能够想出的唯一允许我处理更多数据的技术是用一个数据点替换那个巨大集群的一大块,以使其仍然可以到达它的所有邻居(删除的块小于ε)。
当您知道大多数数据都在一个以 (0.0,0.0) 为中心的集群中时,任何人都可以提供任何提示,无论我做得对还是有更好的方法来降低 DBSCAN 的复杂性?
【问题讨论】:
-
你尝试过其他聚类方法吗?
-
是的,我希望在同一数据集上比较 K-means、DBSCAN 和另一种算法。 DBSCAN 对我来说是一个高优先级,因为它已被证明对异常检测非常有效。
标签: machine-learning bigdata dbscan elki