【发布时间】:2019-07-10 10:29:13
【问题描述】:
我在 gensim 模块中使用余弦相似度函数,即similarities.SparseMatrixSimilarity()。我想获得所有索引文档之间的相似之处。该方法有一个属性:索引,但我不知道其中存储了什么。
sim = similarities.SparseMatrixSimilarity(
self.tfidf_vectors, num_features=self.featurenum)
sim.save(path + '/model/train_index.index')
print(sim.index.shape)
print(sim.index.toarray().shape)
len(self.tfidf.vectors) 是 9117,但 sim.index.shape 是 (9117, 143807) 并且 sim.index.toarray().shape 也是 (9117, 143807)。我想应该是(9117,9117)。 sim.index 中有什么?
【问题讨论】: