带有编码规范的 fread（R 中的 data.table）答案

【问题标题】：fread (data.table in R) with specification of encoding带有编码规范的 fread（R 中的 data.table）
【发布时间】：2023-03-06 02:00:01
【问题描述】：

在之前的问题和我的问题的答案中找不到正确的答案： 1. 我有一个 2.3 GB 的 csv 文件，其中包含 240 万行希伯来文文本，目前以 ASCII 编码。既然我们谈论的是大文件，那么 fread 会更好，但是编码呢？知道如何读取以 ASCII 编码的 csv 文件以避免著名的“字符串中嵌入 nul”错误吗？

谢谢

【问题讨论】：

github.com/Rdatatable/data.table/issues/563
我已经尝试了解决方案，但我从 R 得到的只是 > fread("C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv" , encoding=' UTF8') fread 中的错误（“C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv”，：未使用的参数（编码 =“UTF8”）
这不是解决方案，它是 GitHub 上的 FR，这意味着您的问题目前无法使用当前的 data.table 版本解决，但开发人员正在努力解决。

标签： r csv character-encoding data.table

【解决方案1】：

截至 8 月 25 日，case linked by David Arenburg 已关闭，该功能包含在当前可用的 data.table 版本中。现在可以在调用 fread 时使用 encoding 参数：

text <- fread(file, encoding = 'UTF-8')

ASCII 不是显式编码选项，但 ASCII 是有效的 UTF-8，因此您可以在阅读希伯来语文本时指定 UTF-8。

【讨论】：

我正在使用 data.table 1.9.7（通过 sessionInfo() 确认），我收到此错误：Error in fread("data.csv", encoding = "UTF-8") : unused argument (encoding = "UTF-8")