【问题标题】:What is stored in similarities.SparseMatrixSimilarity().index存储在similarities.SparseMatrixSimilarity().index中的内容
【发布时间】:2019-07-10 10:29:13
【问题描述】:

我在 gensim 模块中使用余弦相似度函数,即similarities.SparseMatrixSimilarity()。我想获得所有索引文档之间的相似之处。该方法有一个属性:索引,但我不知道其中存储了什么。

    sim = similarities.SparseMatrixSimilarity(
        self.tfidf_vectors, num_features=self.featurenum)
    sim.save(path + '/model/train_index.index')
    print(sim.index.shape)
    print(sim.index.toarray().shape)

len(self.tfidf.vectors) 是 9117,但 sim.index.shape 是 (9117, 143807) 并且 sim.index.toarray().shape 也是 (9117, 143807)。我想应该是(9117,9117)。 sim.index 中有什么?

【问题讨论】:

    标签: gensim cosine-similarity


    【解决方案1】:

    9117 是文档数,143897 是所有文档中的单词数。所以,索引是一个矩阵,每一行代表一个文档,每一列代表一个单词。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-07-15
      • 2021-08-31
      • 2018-12-09
      相关资源
      最近更新 更多