从R中的字符串中删除十六进制代码[重复]答案

【问题标题】：Remove Hex Code from String in R [duplicate]从R中的字符串中删除十六进制代码[重复]
【发布时间】：2018-11-10 19:44:46
【问题描述】：

我已将 .doc 文档转换为 .txt，并且我有一些无法删除的奇怪格式（从查看其他帖子来看，我认为它是十六进制代码，但我不确定）。

我的数据集是一个包含两列的数据框，一列标识说话者，第二列标识 cmets。一些字符串现在有奇怪的字符。例如，一个字符串最初表示（减去引号）：

"Why don't we start with a basic overview?"

但是当我在将它转换为 .txt 后在 R 中读取它时，它现在显示为：

"Why don<92>t we start with a basic overview?"

我试过了：

df$comments <- gsub("<92>", "", df$comments)

但是，这不会改变任何事情。此外，每当我在单元格中进行任何其他替换时（例如，将“开始”更改为“开始”，它都会将该特殊字符更改为一系列奇怪的？包围在框内。

任何帮助将不胜感激！

编辑：我是这样阅读我的文字的：

df <- read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)

它有 2 列；第一个是speaker，第二个是cmets。

【问题讨论】：

如何将文本文件读入 R？我无法重现您的问题
df
您是如何将 .doc 转换为 .txt 的？
@Dason，我在 Word 中将 word 文档重新保存为纯文本。
您可以尝试运行print.listof( read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)) 看看它是否编码正确吗？我假设您使用的是 Windows，这就是我无法重现错误的原因

【解决方案1】：

我在这里找到了答案：R remove special characters from data frame

此代码有效：gsub("[^0-9A-Za-z///' ]", "", a)

【讨论】：