【发布时间】:2023-03-06 02:00:01
【问题描述】:
在之前的问题和我的问题的答案中找不到正确的答案: 1. 我有一个 2.3 GB 的 csv 文件,其中包含 240 万行希伯来文文本,目前以 ASCII 编码。 既然我们谈论的是大文件,那么 fread 会更好,但是编码呢? 知道如何读取以 ASCII 编码的 csv 文件以避免著名的“字符串中嵌入 nul”错误吗?
谢谢
【问题讨论】:
-
我已经尝试了解决方案,但我从 R 得到的只是 > fread("C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv" , encoding=' UTF8') fread 中的错误(“C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv”,:未使用的参数(编码 =“UTF8”)
-
这不是解决方案,它是 GitHub 上的 FR,这意味着您的问题目前无法使用当前的
data.table版本解决,但开发人员正在努力解决。
标签: r csv character-encoding data.table