【发布时间】:2020-08-12 03:36:47
【问题描述】:
我在 Mac 上工作,目前正在处理一个导入到 R 的大型 csv 文件(德语)。在该 CSV 文件中对 ä、ö、ü 和 ß 进行编码很好。但是,当我导入它时,这些字母会变得一团糟。
ü 变成<c3><bc>,
ä 变为 <c3><a4>
....
我尝试在导入时应用 UTF-8:df <- read.csv("file.csv", sep=";", encoding = "UTF-8")仍然看起来一样。标准编码也设置为 UTF-8。
有人有想法吗?
【问题讨论】:
-
试试
readr::read_csv -
你确定你知道原始文件中使用了什么编码吗?你在什么操作系统上?文件不一定使用 UTF-8 编码。
-
@xwhitelight 不工作。
-
@MrFlick 我在 Catalina 10.15.4 上。它最初是一个 xlsx 文件,我稍作更改并保存为 UTF-8 csv 文件。那是我尝试导入的那个
-
<c3><bc>,您是指这 8 个字符,还是 2 个字节的十六进制表示?检查字符串的 byte 长度。
标签: r csv encoding import special-characters