【发布时间】:2015-07-24 13:40:56
【问题描述】:
我可以使用 tm 包轻松删除停用词,但有没有简单的方法可以删除特定短语?我希望能够删除“早上好”这句话,但不能删除早上好后不跟上的情况。
例子:
x <- "Good morning. Great question...I'd say we had a good time."
doc.vec <- VectorSource(x)
doc.corpus <- Corpus(doc.vec)
doc.corpus <- tm_map(doc.corpus, stripWhitespace)
doc.corpus <- tm_map(doc.corpus, removePunctuation)
doc.corpus <- tm_map(doc.corpus, content_transformer(tolower))
doc.corpus <- tm_map(doc.corpus, removeWords, c(stopwords("english"), "good"))
dtm <- DocumentTermMatrix(doc.corpus, control=list())
inspect(dtm)
【问题讨论】:
标签: regex r text tm stop-words