【发布时间】:2021-01-10 20:17:10
【问题描述】:
我想根据相似性将一个庞大的数据集聚类成聚类。我该如何解决这个问题?我已经尝试过 MinBatchK 方法和 DBSCAN,但我没有得到很好的结果。我在使用 MinBatchKMeans 时面临的问题是我必须事先指定集群的数量,而使用 DBSCAN 时,大多数都被归类为噪声。有人可以指导我如何解决这个问题吗?我正在使用 TFIDF 将文本转换为向量
例如:当我使用包含 80000 条记录的数据集时,大约需要 2-3 小时才能形成一个大小为 500 的集群。这使得使用 MinBatchK K 方法很难找到最佳集群数量,因为我必须更改K 值,然后用肘法等方法找出最佳数。有经验的人可以告诉我如何解决这个问题吗?
【问题讨论】:
-
我是机器学习的新手。这是分配给我的任务。所以我直接从无监督学习开始。
标签: machine-learning cluster-analysis k-means dbscan