【问题标题】:fread (data.table in R) with specification of encoding带有编码规范的 fread(R 中的 data.table)
【发布时间】:2023-03-06 02:00:01
【问题描述】:

在之前的问题和我的问题的答案中找不到正确的答案: 1. 我有一个 2.3 GB 的 csv 文件,其中包含 240 万行希伯来文文本,目前以 ASCII 编码。 既然我们谈论的是大文件,那么 fread 会更好,但是编码呢? 知道如何读取以 ASCII 编码的 csv 文件以避免著名的“字符串中嵌入 nul”错误吗?

谢谢

【问题讨论】:

  • 我已经尝试了解决方案,但我从 R 得到的只是 > fread("C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv" , encoding=' UTF8') fread 中的错误(“C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv”,:未使用的参数(编码 =“UTF8”)
  • 这不是解决方案,它是 GitHub 上的 FR,这意味着您的问题目前无法使用当前的 data.table 版本解决,但开发人员正在努力解决。

标签: r csv character-encoding data.table


【解决方案1】:

截至 8 月 25 日,case linked by David Arenburg 已关闭,该功能包含在当前可用的 data.table 版本中。现在可以在调用 fread 时使用 encoding 参数:

text <- fread(file, encoding = 'UTF-8')

ASCII 不是显式编码选项,但 ASCII 是有效的 UTF-8,因此您可以在阅读希伯来语文本时指定 UTF-8。

【讨论】:

  • 我正在使用 data.table 1.9.7(通过 sessionInfo() 确认),我收到此错误:Error in fread("data.csv", encoding = "UTF-8") : unused argument (encoding = "UTF-8")
猜你喜欢
  • 2014-04-09
  • 2015-10-23
  • 2015-12-30
  • 2013-07-09
  • 2020-08-23
  • 1970-01-01
  • 1970-01-01
  • 2014-10-28
相关资源
最近更新 更多