【发布时间】:2015-04-15 21:12:51
【问题描述】:
我阅读了有关该主题的帖子,例如如何根据文档的相似性对文档进行聚类here。但我仍然无法理解它是如何实现的。我的测试是我有 10 个文档的 cos 相似性度量。以下是一些:
D1 D2 sim(D1,D2)
d1 d10 0.6823
d1 d2 0.6377
d1 d8 0.0307
d1 d9 0.0294
d1 d7 0.0284
d1 d3 0.0234
d1 d4 0.0199
d1 d6 0.0110
d1 d5 0.0030
d10 d2 0.7232
d10 d3 0.3898
d10 d4 0.3054
d10 d9 0.0256
d10 d7 0.0227
d10 d8 0.0226
d10 d6 0.0110
d10 d5 0.0060
d2 d3 0.7850
...
...
我可以仅根据相似性度量对这些文档进行聚类吗? 如果我指定集群的数量,该怎么做? 如果我不指定聚类的数量,算法可以自动聚类那些文档,怎么做? 提前致谢。
【问题讨论】:
标签: machine-learning data-mining