【问题标题】:Encoding issues with german Umlaute ä, ö, ü and ß in RR 中德语变音符号 ä、ö、ü 和 ß 的编码问题
【发布时间】:2020-08-12 03:36:47
【问题描述】:

我在 Mac 上工作,目前正在处理一个导入到 R 的大型 csv 文件(德语)。在该 CSV 文件中对 ä、ö、ü 和 ß 进行编码很好。但是,当我导入它时,这些字母会变得一团糟。 ü 变成<c3><bc>, ä 变为 <c3><a4> ....

我尝试在导入时应用 UTF-8:df <- read.csv("file.csv", sep=";", encoding = "UTF-8")仍然看起来一样。标准编码也设置为 UTF-8。

有人有想法吗?

【问题讨论】:

  • 试试readr::read_csv
  • 你确定你知道原始文件中使用了什么编码吗?你在什么操作系统上?文件不一定使用 UTF-8 编码。
  • @xwhitelight 不工作。
  • @MrFlick 我在 Catalina 10.15.4 上。它最初是一个 xlsx 文件,我稍作更改并保存为 UTF-8 csv 文件。那是我尝试导入的那个
  • <c3><bc>,您是指这 8 个字符,还是 2 个字节的十六进制表示?检查字符串的 byte 长度。

标签: r csv encoding import special-characters


【解决方案1】:

转到 CSV 并使用 Excel 的另存为功能对其进行转换。将文件另存为CSV UTF-8 (Comma delimited)(在德语中称为CSV UTF-8 (durch Trennzeichen getrennt))。使用readr::read_csv('newfile.csv') 导入此文件。

【讨论】:

    猜你喜欢
    • 2012-08-14
    • 2012-06-28
    • 1970-01-01
    • 1970-01-01
    • 2018-08-03
    • 2015-03-17
    • 1970-01-01
    • 2020-11-10
    • 1970-01-01
    相关资源
    最近更新 更多