R 中德语变音符号 ä、ö、ü 和 ß 的编码问题答案

【问题标题】：Encoding issues with german Umlaute ä, ö, ü and ß in RR 中德语变音符号 ä、ö、ü 和 ß 的编码问题
【发布时间】：2020-08-12 03:36:47
【问题描述】：

我在 Mac 上工作，目前正在处理一个导入到 R 的大型 csv 文件（德语）。在该 CSV 文件中对 ä、ö、ü 和 ß 进行编码很好。但是，当我导入它时，这些字母会变得一团糟。 ü 变成<c3><bc>, ä 变为 <c3><a4> ....

我尝试在导入时应用 UTF-8：df <- read.csv("file.csv", sep=";", encoding = "UTF-8")仍然看起来一样。标准编码也设置为 UTF-8。

有人有想法吗？

【问题讨论】：

试试readr::read_csv
你确定你知道原始文件中使用了什么编码吗？你在什么操作系统上？文件不一定使用 UTF-8 编码。
@xwhitelight 不工作。
@MrFlick 我在 Catalina 10.15.4 上。它最初是一个 xlsx 文件，我稍作更改并保存为 UTF-8 csv 文件。那是我尝试导入的那个
<c3><bc>，您是指这 8 个字符，还是 2 个字节的十六进制表示？检查字符串的 byte 长度。

标签： r csv encoding import special-characters

【解决方案1】：

转到 CSV 并使用 Excel 的另存为功能对其进行转换。将文件另存为CSV UTF-8 (Comma delimited)（在德语中称为CSV UTF-8 (durch Trennzeichen getrennt)）。使用readr::read_csv('newfile.csv') 导入此文件。

【讨论】：