SKlearn LDA 与 Gensim LDA 中的困惑比较问题答案

【问题标题】：Perplexity comparision issue in SKlearn LDA vs Gensim LDASKlearn LDA 与 Gensim LDA 中的困惑比较问题
【发布时间】：2017-03-24 07:32:05
【问题描述】：

我在 sklearn 和 gensim 中都应用了 lda。然后我检查了保留数据的困惑。

我得到了 gensim 的困惑的负值和 sklearn 的 perpleixy 的正值。我如何比较这些值。

sklearn 困惑 = 417185.466838

gensim 困惑 = -9212485.38144

【问题讨论】：

你是如何获得这两个困惑的？
@MMF 在 sklearn 中：- lda.perplexity(doc_test) 和在 gensim 中：- ldamodel.bound(doc_test)

【解决方案1】：

为了比较困惑度，您需要使用 np.exp(-1. * gensim_model.log_perplexity(train_corpus)) 转换 gensim 的困惑度。

有关 Gensim 和 Sklearn LDA 实现的一般比较，请参阅 here。

【讨论】：