【发布时间】:2020-09-11 04:39:52
【问题描述】:
我有两个磁盘框架,每个大约有 20GB 的文件。
合并为数据表太大了,因为该过程需要的内存超出了我可用的内存。我尝试使用此代码:output <- rbindlist(list(df1, df2))
问题是我还想运行unique,因为我的数据中可能存在重复。
我可以在两个磁盘框架上使用与rbindlist 相同的代码吗?
【问题讨论】:
标签: r data.table disk.frame
我有两个磁盘框架,每个大约有 20GB 的文件。
合并为数据表太大了,因为该过程需要的内存超出了我可用的内存。我尝试使用此代码:output <- rbindlist(list(df1, df2))
问题是我还想运行unique,因为我的数据中可能存在重复。
我可以在两个磁盘框架上使用与rbindlist 相同的代码吗?
【问题讨论】:
标签: r data.table disk.frame
是的。你就做rbindlist.disk.frame(list(df1, df2))
我也需要在某个时候实现bind_rows!
【讨论】: