【发布时间】:2019-06-19 03:08:03
【问题描述】:
我正在尝试使用语料库和各种 tm_map 函数在 R 中构建词云。问题是我不断返回这个奇怪的符号,带有欧元符号和倒置引号的那个。它在我的语料库中排名第二。 (还有一两个其他的,但它们远没有那么频繁,所以问题不大。)
任何想法如何摆脱这个?
这是一个 .txt 格式的文本样本,在它被拉入 R 之前:
迁移到 Virtual Replication 6 后,AWS 内部和外部的复制功能在以前只有单向功能的情况下添加到了 Amazon 云存储平台中。 Zerto 技术布道者 Gjisbert Janssen van Doorn 说,在 AWS 中进行开发需要更长的时间。 “我们从 Azure 开始双向复制。我们尝试通过 API 为我们支持的云进行本地开发,但使用 AWS 需要更长的时间。” Zerto 还通过 IBM Cloud 添加了双向复制。 van Doorn 表示,该公司没有计划增加对谷歌云平台的支持。 “这是我们一直在关注的事情。它在愿望清单上,而不是在路线图上,”他说。
这是通过 Corpus() 拉入 R 后的结果:
迁移到 Virtual Replication 6 后,AWS 内部和外部的复制功能在以前只是单向的,并添加到了 Amazon 云存储平台中。\n\nZerto 技术布道者 Gjisbert 说,在 AWS 中进行开发需要更长的时间詹森·范·多恩。 “我们从 Azure 开始双向复制。我们尝试通过 API 为我们支持的云进行本地开发,但使用 AWS 需要更长的时间。”Zerto 还使用 IBM Cloud 添加了双向复制。 van Doorn 表示,该公司没有计划增加对谷歌云平台的支持。 “这是我们一直在关注的事情。它在愿望清单上,而不是在路线图上,”他说。
然后我运行这段代码:
# Convert the text to lower case
corpus <- tm_map(corpus, content_transformer(tolower))
# Remove numbers
corpus <- tm_map(corpus, removeNumbers)
# Remove english common stopwords
corpus <- tm_map(corpus, removeWords, stopwords("english"))
# Remove punctuations
corpus <- tm_map(corpus, removePunctuation)
# Remove your own stop word
# specify your stopwords as a character vector
corpus <- tm_map(corpus, removeWords, c("new", "products", "way", "back",
"can", "need", "also", "â", "look", "will", "one", "right",
"move", "gorge", "mathieu", "like",
"said", "€“", "–", "â", "data",
"use", "storage"))
# Remove punctuations
corpus <- tm_map(corpus, removePunctuation)
# Eliminate extra white spaces
corpus <- tm_map(corpus, stripWhitespace)
之后相同的正文如下所示:
虚拟复制增加了复制 aws 以前 oneway 亚马逊云平台需要更长时间 开发 aws zerto 技术布道者 gjisbert janssen van doorn €œ双向复制 azure 开始尝试通过 apis 云进行本地开发 支持需要更长时间 aws ' zerto 添加双向复制 ibm cloud van doorn公司计划添加支持谷歌云平台€œit’这是我们一直关注它的愿望清单而不是路线图
所以,那些 tm_map 函数并没有摆脱所有的垃圾,所以我从中运行的词云仍然包含它们。
任何想法如何解决这个问题?
【问题讨论】:
-
您能添加一个用于制作 wordcloud 的文本示例吗?还是数据表?
-
我添加了用于删除自定义停用词的 post-Corpus() 文本示例和代码。
-
请添加语料库前文本示例和代码,直到您进入该部分或自定义停用词功能。问题可能与停用词删除无关,而是与早期的处理步骤有关。
-
添加了 Pre-Corpus()、post-Corpus() 和后 tm_map 处理文本。
标签: r tm word-cloud