【发布时间】:2015-06-30 14:56:11
【问题描述】:
为什么 removeSparseTerms() 没有删除任何术语?应删除单次出现的单词(等)。
(r V. 3.2)
> docs <- tm_map(docs, stemDocument)
> dtm <- DocumentTermMatrix(docs)
> freq <- colSums(as.matrix(dtm))
> ord <- order(freq)
> freq[tail(ord)]
one experi will can lucid dream
287 312 363 452 1018 2413
> freq[head(ord)]
abbey abdomin abdu abraham absent abus
1 1 1 1 1 1
> dim(dtm)
[1] 1 5265
> dtms <- removeSparseTerms(dtm, 0.1)
> dim(dtms)
[1] 1 5265
> dtms <- removeSparseTerms(dtm, 0.001)
> dim(dtms)
[1] 1 5265
> dtms <- removeSparseTerms(dtm, 0.9)
> dim(dtms)
[1] 1 5265
>
(语料库是单个文档,一本书的文本版本。)
【问题讨论】:
标签: r data-mining text-mining data-cleaning