【发布时间】:2018-01-25 00:59:06
【问题描述】:
我有一个包含以下数据集的 CSV:
similarity | doc_id1 | doc_id2
1 | 34 | 0
1 | 29 | 6
0.997801748 | 22 | 10
0.966014701 | 35 | 16
0.964811948 | 14 | 13
其中“相似度”指的是来自 tf-idf 余弦相似度计算的值,而 doc_ids 指的是文档。因此,相似度越接近 1,两个文档越相似。
我想根据此信息对文档进行聚类,但我不完全确定如何执行此操作。我已经阅读了很多关于球形 K 均值聚类的内容,但在实现它方面,我很难理解它。有没有可能有用的图书馆? K-means 是正确的方法吗?
编辑: 我只有这个 CSV,所以即使我希望有基于词频的向量,但我没有。如果考虑到我所拥有的只是相似性,K-means 不起作用,那么还有其他算法可以适合这些数据吗?
【问题讨论】:
标签: python csv cluster-analysis tf-idf cosine-similarity