【发布时间】:2019-11-12 19:23:01
【问题描述】:
我正在尝试使用 sklearn 将一些推文聚类为字典 我有 25 个初始质心 id(tweet id) 我在自己的函数中编写了它,但我不知道如何用 sklearn 实现它
# {845512:'tweet id 845512', 543115:'tweet id 543115', ...}
# initial_centroids = [845512, 546318, 84632, ...] - 25 centroids
NOTE: tweets_vec <= I need to make it by jaccard_distance
tweets_vec = Is the jaccard distance matrix (it may be wrong, i dont know)
kmeans = KMeans(n_clusters=25, init=initial_seeds).fit(tweets_vec)
我制作了一个二维矩阵,其中有 Jaccard 距离。我不知道如何在 kmeans 方法中修复 init。它的错误不是 ndarray
我究竟应该传递给它什么?
【问题讨论】:
-
可能与:stackoverflow.com/questions/5529625/… 重复,您可以在最佳答案中找到您的解决方案。
-
这不是我要找的。我可能会含糊地说出这个问题。我将对其进行编辑以使其更清晰。
标签: python scikit-learn k-means text-classification