【发布时间】:2017-06-28 02:13:47
【问题描述】:
我有一个包含超过 15,000 个文本文档的语料库。 removeSparseTerms 函数不起作用:
dtm
<<DocumentTermMatrix (documents: 15095, terms: 12811)>>
Non-/sparse entries: 140286/193241759
Sparsity : 100%
Maximal term length: 37
Weighting : term frequency (tf)
dtms <- removeSparseTerms(dtm, 0.1)
dtms
<<DocumentTermMatrix (documents: 15095, terms: 0)>>
Non-/sparse entries: 0/0
Sparsity : 100%
Maximal term length: 0
Weighting : term frequency (tf)
我也试过了,没用:
colTotals<- col_sums(dtm)
dtm2 <- dtm[,which(colTotals>20)]
dtm2
<<DocumentTermMatrix (documents: 15095, terms: 1387)>>
Non-/sparse entries: 100867/20835898
Sparsity : 100%
Maximal term length: 26
Weighting : term frequency (tf)
我还能做些什么来减少稀疏性?我希望能够在 excel 中打开频率表,但现在它需要太多内存所以我无法打开(这就是我想减少稀疏性的原因)。
【问题讨论】:
标签: r