【问题标题】:rxImport fails on large datasetrxImport 在大型数据集上失败
【发布时间】:2017-06-02 12:53:03
【问题描述】:

过去两天我一直在尝试使用 RxImport 函数将大型 CSV(9 gigs)转换为 XDF 格式,但没有成功。

R 服务器开始读取数据块的过程似乎很好,但几分钟后它会慢下来,然后在大约 6 小时后完全失败,Windows 停止服务器说它的 RAM 用完了。

我使用的代码如下:

pd_in_file <- RxTextData("cca_pd_entity.csv", delimiter = ",") #file to import
pd_out_file <- file.path("cca_pd_entity.xdf") #desired output file
pd_data <- rxImport(inData = pd_in_file, outFile = pd_out_file, 
stringsAsFactors = TRUE, overwrite = TRUE)

我正在运行 Microsoft R Server,版本 9.0.1。在具有 16gig RAM 的 Windows 7 机器上。

谢谢

【问题讨论】:

  • 看看设置colInfo参数是否有帮助
  • 感谢您的建议,我会尝试一下。我有近 300 列数据,因此假设我可以导入数据的子集并使用 rxGetVarInfo 命令提取列信息并将其传递给 rxImport 命令而不是手动指定每个列是正确的吗?
  • 成功了!!! Arg 这太棒了:D 谢谢谢谢谢谢

标签: r microsoft-r


【解决方案1】:

使用 Hong Ooi 的建议在 rxTextData 中设置 colInfo 已解决。我不确定为什么它会产生如此大的差异,但它在不到 2 分钟的时间内转换了整个 9gig 数据集,而在几个小时前它完全无法导入。

【讨论】:

  • 您将 colInfo 参数设置为什么?
  • @gibbz00 - 我从 CSV 导入了一个数据样本,然后分配了 ColumnInfo
猜你喜欢
  • 2018-11-19
  • 1970-01-01
  • 1970-01-01
  • 2019-06-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-04-19
  • 1970-01-01
相关资源
最近更新 更多