【发布时间】:2014-01-22 10:14:11
【问题描述】:
我必须使用 k-means 编写程序集群。我有 TF-IDF 和看起来像这样的余弦相似度
1.00 0.17 0.46 0.40 0.89
0.17 1.00 0.83 0.60 0.58
0.46 0.83 1.00 0.30 0.67
0.40 0.60 0.30 1.00 0.73
0.89 0.58 0.67 0.73 1.00
我有 2 均值的输出,它与第一个质心分为两组:D1 和 D2,因为它们的相似性最低(0.17)所以组是 {D1, D5} 和 {D2, D3, D4}但是如果我必须选择 3-means 怎么办?那么我该如何选择我的起始质心?
还有一件事我不明白,我正在使用我的 TF-IDFS,如下所示:
0.2 0.4 0.8 0.0 0.2
0.0 0.4 0.2 0.8 0.2
0.8 0.0 0.2 0.4 0.4
并为我的小组制作新的质心
组 1:T1- 0.2 T2- 0.1 T3- 0.6 组2:T1- 0.4 T2- 0.4(6) T3-0.2
现在我该怎么做才能再次将我的文档分配给新的质心?我现在必须计算质心和文档之间的余弦吗?以及我把它放在那里的 cos 值是否比 group centroid 更高?
【问题讨论】:
标签: machine-learning distance cluster-analysis k-means cosine-similarity