【发布时间】:2016-11-10 10:58:25
【问题描述】:
我使用以下命令创建了一个语料库:
corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION))
corpus_map <- tm_map(corpus_map, removeNumbers)
上述命令从语料库中删除数字。是否有任何命令可以让我对语料库的所有单词进行子串化?例如:“Travelling”应该被转换为#to 3 个字母的子字符串作为“tra”。通常,我会使用
substr("travelling",1,3)
但我想对 tm 中的语料库做同样的事情
【问题讨论】: