【发布时间】:2016-09-15 23:23:32
【问题描述】:
我对 R 非常陌生,最近开始从事一个文本分析项目。我正在尝试将构成我的故事的单词组成一个词云。 我安装的包是:
tm
SnowballC
wordcloud
数据是反馈数据,包含大量不属于英语的票证生成垃圾词。 有什么方法可以删除垃圾词并只使用正确的英语吗? 我已经尝试制作一个要删除的单词列表,但是列表中要添加的单词太多。
请帮忙... 谢谢
【问题讨论】:
-
tm这样做。如果您添加一个可重现的示例,它会更容易帮助您 -
删除非英语单词非常简单。下载任何海量字典(如 brown 或 reuters)并将它们转换为数据框并执行
!( df1$word %in% dictionary$word)subset...提供可重现的示例将帮助我们为您的数据提供准确的代码... -
嗨 Gaurav,我的 wordcloud 按降序显示频率为:jqxwb、gghtf、neelam、jhwqex、lkjbne、taslima、刺绣、同意、数据时间......与我唯一相关的词是 - 刺绣并同意。想消除其余的......希望这个例子有助于更好地理解这个问题!
标签: r tm text-analysis word-cloud