【问题标题】:suggestion for clustering algorithm?聚类算法的建议?
【发布时间】:2019-11-08 11:20:07
【问题描述】:

预处理后我有一个包含 590000 条记录的数据集,我想从中找到集群,它包含字符串数据(现在假设我在数据集中只有一列具有 590000 个唯一值)。我也使用自定义的距离度量,需要计算大小为 590000*590000 的距离矩阵。使用一些分区逻辑,我创建了距离矩阵,但由于内存限制,无法将这些分区合并为一个大距离矩阵。有没有人有任何想法来解决它?我为此选择了 DBSCAN。有没有办法使用深度学习方法?任何其他想法

【问题讨论】:

    标签: apache-spark deep-learning cluster-analysis dbscan hdbscan


    【解决方案1】:

    首先使用易于管理的样本。

    因为我怀疑结果是否足以保证任何努力扩展一个无论如何都不起作用的方法。

    【讨论】:

      猜你喜欢
      • 2017-10-19
      • 2020-06-18
      • 2018-09-01
      • 1970-01-01
      • 2012-03-20
      • 1970-01-01
      • 2013-11-26
      • 2018-07-24
      • 2011-03-29
      相关资源
      最近更新 更多