如何使用 scikit learn 获取特定文档的主题概率？答案

【问题标题】：How to get the topics probability of a specific document using scikit learn?如何使用 scikit learn 获取特定文档的主题概率？
【发布时间】：2017-12-22 08:24:46
【问题描述】：

我想对一组文档应用 LDA。假设计算文档属于某个主题的概率。我做了以下事情：

tfidf_vectorizer = TfidfVectorizer(min_df=12, analyzer="word")
tfidf = tfidf_vectorizer.fit_transform(data_samples)
lda = LatentDirichletAllocation(n_topics=5, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
lda.fit(tfidf)

现在我想获取我的data_sample 中的文档属于给定主题的概率，例如，因为我使用了 5 个主题：[0.2, 0.1 ,0.1, 0.1, 0.5]，关于 LDA 的文档很弱，你知道是否这些信息很容易获得吗？

问题：我也有同样的问题，有人知道吗？我不知道它不允许我在这里添加评论，但它可以让我添加到其他人的帖子中。

【问题讨论】：

标签： python python-3.x machine-learning scikit-learn lda

【解决方案1】：

我最近遇到了同样的问题。您可以使用以下方法将模型应用于每个样本：lda.transform(tfidf)

请注意，您需要为此使用向量 tfidf。

我认为“变换”这个名字来源于data transformation的统计概念

【讨论】：