【发布时间】:2020-05-30 19:04:01
【问题描述】:
我使用以下代码来清理推文中用户名的语料库。但有些名字在词云中。为什么他们错了?
removeUsername <- function(x) gsub('@[^[:space:]]*', '', x)
removeURL <- function(x) gsub("http[:alnum:]*","",x)
removeNumPunct<- function(x) gsub("[^[:alpha:][:space:]]*","",x)
removeUsername <- function(x) gsub('@[^[:space:]]*', '', x)
mycorpus <- tm_map(mycorpus,PlainTextDocument)
mycorpus <- tm_map(mycorpus,content_transformer(removeURL))
mycorpus <- tm_map(mycorpus,content_transformer(tolower))
mycorpus <- tm_map(mycorpus,stripWhitespace)
mycorpus <- tm_map(mycorpus,content_transformer(removeNumPunct))
mycorpus <- tm_map(mycorpus,content_transformer(removeNumbers))
mycorpus <- tm_map(mycorpus, content_transformer(removeUsername))
Stopwords <- readLines("/Users/Stopwords.txt")
mycorpus <- tm_map(mycorpus, function(x) removeWords(x, Stopwords ))
【问题讨论】:
-
这意味着您的过滤不正确。不幸的是,我们无法为您提供帮助,因为您没有提供示例输入和示例输出。两者都涵盖了问题的差异。
-
我如何展示一个我在 wordcloud 中看到有名字的例子。
-
只需提供一些示例 twitter 处理您的代码似乎没有删除。最好在它们似乎没有消失的消息中,因为消息中可能存在阻止删除的内容。阅读本文了解如何创建minimal reproducible example
-
清洁后。推文:“nulleberg staat meldete rekordsteuereinnahmen bleibt geld dt steuerzahlers wi stcozwhqufy”
-
清洁前:“@nulleberg Der Staat meldete doch über Jahre #Rekordsteuereinnahmen。\r\nDa bleibt das Geld des d...
标签: r sentiment-analysis