【发布时间】:2021-03-16 16:00:31
【问题描述】:
我需要运行 K-means 聚类算法来聚类文本数据,但使用余弦距离测量而不是欧几里得距离。在 python 中有任何可靠的实现吗?
编辑:
我尝试过如下使用 NLTK:
NUM_CLUSTERS=3
kclusterer = KMeansClusterer(NUM_CLUSTERS, distance=
nltk.cluster.util.cosine_distance, repeats=25)
clstr = kclusterer.cluster(X, clusters=False, trace=False)
print (clstr)
但它给了我错误:
TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0]
这里的 X 是一个形状为 (15, 155) 的 TF-IDF 矩阵。
【问题讨论】:
标签: python cluster-analysis k-means cosine-similarity