【发布时间】:2015-10-08 00:24:37
【问题描述】:
使用来自RWeka 类的三元标记器
> TriGramTokenizer <- function(x){NGramTokenizer(x, Weka_control(min=3, max=3))}
我标记了一个语料库。检查显示三元组如下所示:
> inspect(tdm_trigram[1:10, 1:3])
A term-document matrix (10 terms, 3 documents)
Non-/sparse entries: 10/20
Sparsity : 67%
Maximal term length: 17
Weighting : term frequency (tf)
Docs
Terms en_US.blogs.capped.txt en_US.news.capped.txt
\u0097 age believe 0 1
\u0095 all tradeable 0 1
\u0093 amazing feat\u0094 0 1
\u0097 appear poised 0 1
\u0096 areas muslim 0 1
\u0097 是什么?我使用tm 库中的常用方法(stripWhitespace、删除标点符号等)对我的语料库进行了预处理。
我是否应该使用不同的编码来阅读?
【问题讨论】:
标签: r tokenize text-mining tm