【发布时间】:2012-08-30 23:49:25
【问题描述】:
我有 20 个大型 CSV(每个 100-150MB)文件,我想在 R 中加载并将它们 rbind 到一个大文件中并执行我的分析。读取每个 CSV 文件仅在一个内核上执行,大约需要 7 分钟。我使用的是 64 位 8 核 linux 和 16GB RAM,所以资源应该不是问题。
有什么方法可以更有效地执行此过程?我也对其他(开源 linux)软件持开放态度(例如将 CSV 文件绑定到不同的程序中并在 R 中加载)或任何可以使这个过程更快的东西。
非常感谢
【问题讨论】:
-
出于好奇,您正在使用什么功能等待 7 分钟?
-
Andrie 的链接有助于阅读 .csv 部分,stackoverflow.com/a/12252047/403310 应该有助于阅读
rbind部分。您可以在data.frame和data.table上使用rbindlist。