是否有任何可以识别数字集群本身的无监督聚类技术？

【问题标题】：Is there any unsupervised clustering technique which can identify numbers clusters itself?是否有任何可以识别数字集群本身的无监督聚类技术？
【发布时间】：2023-10-23 22:00:01
【问题描述】：

我在 gensim、fasttext、sklearn 上检查了无监督聚类，但没有找到任何文档可以使用无监督学习对我的文本数据进行聚类，而无需提及要识别的聚类数量

例如在 sklearn KMneans 聚类中

km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100)

我必须提供 n_clusters。

在我的例子中，我有文本，它应该自动识别其中的簇数并对文本进行聚类。非常感谢任何参考文章或链接。

【问题讨论】：

scikit-learn 中的overview of clustering methods 过了吗？其中有少数没有直接将簇数作为参数。

标签： tensorflow scikit-learn gensim unsupervised-learning fasttext

【解决方案1】：

DBSCAN 是一种基于密度的聚类方法，我们不必事先指定聚类的数量。

sklearn 实施：http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html

这是一个很好的教程，可以直观地理解 DBSCAN：http://mccormickml.com/2016/11/08/dbscan-clustering/

我从上面的教程中提取了以下内容，可能对你有用。

k-means 需要指定簇的数量“k”。 DBSCAN 不需要，但确实需要指定两个参数，这些参数会影响两个附近点是否应该链接到同一个集群中的决定。

这两个参数分别是距离阈值ε（epsilon）和“MinPts”（最小点数），待解释。

还有其他方法（按照 cmets 中给出的链接），但是，DBSCAN 是一种流行的选择。

【讨论】：