【发布时间】:2013-04-13 11:10:28
【问题描述】:
看起来这个问题可能已经被问过几次了(hereand here),但还没有回答。我希望这是由于之前提出的问题含糊不清,正如 cmets 所指出的那样。如果我再次提出类似问题而违反协议,我深表歉意,我只是假设这些问题不会有任何新答案。
无论如何,我是潜在狄利克雷分配的新手,并且正在探索将其用作文本数据降维的方法。最终,我想从一个非常大的词袋中提取一组较小的主题,并使用这些主题作为模型中的几个变量来构建一个分类模型。我已经成功地在训练集上运行 LDA,但我遇到的问题是能够预测哪些相同的主题出现在其他一些测试数据集中。我现在正在使用 R 的 topicmodels 包,但如果有其他方法可以使用其他包,我也对此持开放态度。
这是我正在尝试做的一个示例:
library(topicmodels)
data(AssociatedPress)
train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]
train.lda <- LDA(train,5)
topics(train.lda)
#how can I predict the most likely topic(s) from "train.lda" for each document in "test"?
【问题讨论】:
-
当您在
topicmodels包中使用newdata参数时会发生什么?似乎相关..cran.r-project.org/web/packages/topicmodels/topicmodels.pdf -
呃,我不知道我是如何在文档中错过的。乍一看,它看起来像:后验(train.lda,test)就可以了。
标签: r lda topic-modeling