【发布时间】:2018-11-10 19:44:46
【问题描述】:
我已将 .doc 文档转换为 .txt,并且我有一些无法删除的奇怪格式(从查看其他帖子来看,我认为它是十六进制代码,但我不确定)。
我的数据集是一个包含两列的数据框,一列标识说话者,第二列标识 cmets。一些字符串现在有奇怪的字符。例如,一个字符串最初表示(减去引号):
"Why don't we start with a basic overview?"
但是当我在将它转换为 .txt 后在 R 中读取它时,它现在显示为:
"Why don<92>t we start with a basic overview?"
我试过了:
df$comments <- gsub("<92>", "", df$comments)
但是,这不会改变任何事情。此外,每当我在单元格中进行任何其他替换时(例如,将“开始”更改为“开始”,它都会将该特殊字符更改为一系列奇怪的?包围在框内。
任何帮助将不胜感激!
编辑: 我是这样阅读我的文字的:
df <- read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)
它有 2 列;第一个是speaker,第二个是cmets。
【问题讨论】:
-
如何将文本文件读入 R?我无法重现您的问题
-
df
-
您是如何将 .doc 转换为 .txt 的?
-
@Dason,我在 Word 中将 word 文档重新保存为纯文本。
-
您可以尝试运行
print.listof( read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T))看看它是否编码正确吗?我假设您使用的是 Windows,这就是我无法重现错误的原因
标签: r string text replace gsub