【问题标题】:Removing different words form a document using R console使用 R 控制台从文档中删除不同的单词
【发布时间】:2016-02-17 23:43:06
【问题描述】:

我已成功检索到一个文本文件,但我想删除不同的单词。我已经去 read.table 并且不知道如何使用它来帮助我删除某些单词。我有300个字,这些是其中的一些。如何使用 R 控制台删除所有这些单词?我有两个文件,一个是 sk.text,它是一个完整的文档,另一个是 bash.txt,它只有单词,所以我想删除 sk.text 中与 bash.text 中给出的单词匹配的所有单词.

 with
 within
 without
 work
 worked
 working
 works
 would

【问题讨论】:

  • 所以你想读入一个文件,删除某些单词,然后写出一个文件?
  • 欢迎来到 StackOverflow!请阅读有关how to ask a good question 的信息以及如何提供reproducible example。这将使其他人更容易帮助您。
  • 是的,我有两个文件,一个是 sk.text,它是一个完整的文档,另一个是 bash.txt,它只有单词,所以我想删除 sk 中的所有单词。与 bash.text 中给出的单词匹配的文本。
  • 请编辑问题。不要在 cmets 中添加额外的信息。

标签: r information-retrieval


【解决方案1】:

一个简单的方法是使用

gsub(paste0('\\b',
            YOURVECTOROFWORDSTOREMOVE,
            '\\b', collapse = '|'),'',YOURSTRING)

它用一个空格替换向量中每个出现的单词,这些单词由结束/开始字符或空格包围。

但如果您有很多这样的文件,您可能想查看 tm 包并使用语料库对象。在那里你可以简单地删除你喜欢的词

tm_map(YOURCORPUS, removeWords, YOURVECTOROFWORDSTOREMOVE) 

【讨论】:

  • 试试gsub(paste0('\\b', x, '\\b', collapse="|"), '', YOURSTRING)
  • 谁不知道\b。甜蜜-
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-06-23
  • 2021-06-27
  • 2022-01-08
  • 2018-11-09
  • 1970-01-01
  • 2021-12-07
  • 2021-07-07
相关资源
最近更新 更多