【问题标题】:Gensim: How to load corpus from saved lda model?Gensim:如何从保存的 lda 模型中加载语料库?
【发布时间】:2020-03-24 23:18:27
【问题描述】:

当我保存我的 LdaModel lda_model.save('model') 时,它保存了 4 个文件:

  1. model
  2. model.expElogbeta.npy
  3. model.id2word
  4. model.state

我想用pyLDAvis.gensim来可视化主题,这似乎需要模型、语料库和字典。我能够加载模型和字典:

lda_model = LdaModel.load('model')
dict = corpora.Dictionary.load('model.id2word')

是否可以加载语料库?怎么样?

【问题讨论】:

    标签: gensim lda corpus


    【解决方案1】:

    在这里分享这个,因为我也花了一段时间才找到答案。请注意,dict 不是字典的有效名称,我们使用 lda_dict 代替。

    # text array is a list of lists containing text you are analysing
    # eg. text_array = [['volume', 'eventually', 'metric', 'rally'], ...]
    # lda_dict is a gensim.corpora.Dictionary object
    
    bow_corpus = [lda_dict.doc2bow(doc) for doc in text_array]
    

    【讨论】:

      【解决方案2】:

      在 gensim python 代码中,他们说忽略 expElogbeta 和状态文件。可以加载语料库,语料库是一组包含 2 个数字的列表。加载起来会很复杂,我建议从原始文本数据加载语料库并使用 id2word

      【讨论】:

        最近更新 更多