【问题标题】:Is there any unsupervised clustering technique which can identify numbers clusters itself?是否有任何可以识别数字集群本身的无监督聚类技术?
【发布时间】:2023-10-23 22:00:01
【问题描述】:

我在 gensim、fasttext、sklearn 上检查了无监督聚类,但没有找到任何文档可以使用无监督学习对我的文本数据进行聚类,而无需提及要识别的聚类数量

例如在 sklearn KMneans 聚类中

km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100)

我必须提供 n_clusters。

在我的例子中,我有文本,它应该自动识别其中的簇数并对文本进行聚类。非常感谢任何参考文章或链接。

【问题讨论】:

标签: tensorflow scikit-learn gensim unsupervised-learning fasttext


【解决方案1】:

DBSCAN 是一种基于密度的聚类方法,我们不必事先指定聚类的数量。

sklearn 实施:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html

这是一个很好的教程,可以直观地理解 DBSCAN:http://mccormickml.com/2016/11/08/dbscan-clustering/

我从上面的教程中提取了以下内容,可能对你有用。

k-means 需要指定簇的数量“k”。 DBSCAN 不需要,但确实需要指定两个参数,这些参数会影响两个附近点是否应该链接到同一个集群中的决定。

这两个参数分别是距离阈值ε(epsilon)和“MinPts”(最小点数),待解释。

还有其他方法(按照 cmets 中给出的链接),但是,DBSCAN 是一种流行的选择。

【讨论】:

    最近更新 更多