【发布时间】:2015-06-02 12:17:32
【问题描述】:
我正在努力解决一些编码问题。我有许多包含以下格式的行的文本文件:
https://dl.dropboxusercontent.com/u/94114397/example.txt
根据 Notepad++,这些都以 UTF-8 编码,并且大多数非 ASCII 字符都能正确显示,正如您在第 1 行和第 2 行中看到的那样。但是,我遇到了一些似乎被错误解释的字符的问题( ?)。在我的示例文件中,第 3 行中的“Lakuic”一词就是这种情况,其中“u”和“i”之间应该有一个“š”。这两个字母之间实际上有一个字符,可以通过将单词复制粘贴到谷歌浏览器地址栏中来看到。
现在,当我在 R 中读取数据时,它显示“Lakuic”。我该如何解决这个问题?
【问题讨论】:
-
尝试在读取中添加编码,例如。 read.table("saveFile", header=F, sep="\t", quote="\"",encoding="latin1")
-
我已经尝试过使用不同的编码(“latin1”,“Windows1253”,...),总是导致整个文档中的特殊字符显示错误。
-
我认为这是 Windows-1252。将 Lakuic 复制到一个空白的 R 文件中,另存为 UTF 编码。打开文件- 不正确。选择 File - ReOpen with Encoding 并选择 Windows-1252。对我来说是正确的。
标签: r utf-8 character-encoding