使用COS(名词和成语)
使用COS(无限制)
使用Jaccard (名词和成语)
使用Jaccard (无限制)
53.txt
0.75956909998699
0.695630243577844
0.560566883431663
0.4670868864554
57.txt
0.832549281197672
0.784451145860574
0.711498783220936
0.635179493763215
75.txt
0.723232861947749
0.705986655123678
0.515174136459287
0.494265265766382
94.txt
0.944456910179154
0.864040767357343
0.624237679218324
0.760073520562129
PS: 通过查看文本的内容,可以发现五个文本之间都存在一定的相似。能得到文本的相似度之后,可以采用K-means等聚类算法对文本数据进行聚类。
K-means的算法过程可以通过网络得到。