【发布时间】:2015-07-15 08:38:19
【问题描述】:
我正在尝试使用大约 3+ 百万行文本的文本文件创建术语文档矩阵。我创建了一个随机文本样本,结果大约有 300,000 行。
不幸的是,当使用以下代码时,我最终得到了 300,000 个文档。我只想要一份包含每个二元组频率的文档:
library(RWeka)
library(tm)
corpus <- readLines("myfile")
numberLinesCorpus <- 3000000
corpus_sample <- text_corpus[sample(1:numberLinesCorpus, numberLinesCorpus*.1, replace = FALSE)]
myCorpus <- Corpus(VectorSource(corpus_sample))
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 2))
tdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))
该示例包含大约 300,000 行。但是 tdm 中的文档数也是 300,000。
任何帮助将不胜感激。
【问题讨论】:
标签: r statistics nlp tm term-document-matrix