【问题标题】:Remove Hex Code from String in R [duplicate]从R中的字符串中删除十六进制代码[重复]
【发布时间】:2018-11-10 19:44:46
【问题描述】:

我已将 .doc 文档转换为 .txt,并且我有一些无法删除的奇怪格式(从查看其他帖子来看,我认为它是十六进制代码,但我不确定)。

我的数据集是一个包含两列的数据框,一列标识说话者,第二列标识 cmets。一些字符串现在有奇怪的字符。例如,一个字符串最初表示(减去引号):

"Why don't we start with a basic overview?"

但是当我在将它转换为 .txt 后在 R 中读取它时,它现在显示为:

"Why don<92>t we start with a basic overview?"

我试过了:

df$comments <- gsub("<92>", "", df$comments)

但是,这不会改变任何事情。此外,每当我在单元格中进行任何其他替换时(例如,将“开始”更改为“开始”,它都会将该特殊字符更改为一系列奇怪的?包围在框内。

任何帮助将不胜感激!

编辑: 我是这样阅读我的文字的:

df <- read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)

它有 2 列;第一个是speaker,第二个是cmets。

【问题讨论】:

  • 如何将文本文件读入 R?我无法重现您的问题
  • df
  • 您是如何将 .doc 转换为 .txt 的?
  • @Dason,我在 Word 中将 word 文档重新保存为纯文本。
  • 您可以尝试运行print.listof( read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)) 看看它是否编码正确吗?我假设您使用的是 Windows,这就是我无法重现错误的原因

标签: r string text replace gsub


【解决方案1】:

我在这里找到了答案:R remove special characters from data frame

此代码有效:gsub("[^0-9A-Za-z///' ]", "", a)

【讨论】:

  • 很高兴您找到了解决方案。此代码将删除这些特殊字符,例如“不”中的 ',并将从数据中丢失 - 如果这是一个问题,您最好尝试更改 R 中的编码。
猜你喜欢
  • 2018-01-02
  • 1970-01-01
  • 2018-04-27
  • 1970-01-01
  • 2015-10-09
  • 1970-01-01
  • 2014-04-05
  • 2016-08-04
  • 2012-04-14
相关资源
最近更新 更多