【发布时间】:2017-11-26 18:47:42
【问题描述】:
我有一个大于 2GB 的大型 json 文件。由于数据量非常大,我无法使用整个数据集创建数据框。我想解析特定信息并写入 CSV 文件。
所以我正在寻找一些技术来创建具有特定行数的数据框。
假设我在将 json 解析为数据帧时有 2M 行,我想创建一个每个进程只有 10k-15k 行的数据帧。然后将一些信息写入 CSV 文件。
每个进程将有 10k-15k 行,直到完成所有 2M 行。
我正在使用 tidyjson 和 dplyr 包。
【问题讨论】:
-
如何将 HUGE json 文件拆分为 R 之外的较小文件?
-
你能告诉我们,到目前为止你尝试了什么?