【发布时间】:2017-09-24 20:57:30
【问题描述】:
我正在处理一个相对较大的数据集(5 个文件,每个 2GB,为您提供一个数量级的表,其中一个表是 1.5M 行 x 270 列),我使用 dplyr left_joint 函数(在这些数据集和其他小表之间)。这些表包含我不想丢失的字符串数据。然而,使用处理大型数据集的包(如 bigmemory 或 ff)会将字符串转换为因子,然后转换为数字,这意味着数据会丢失。有没有办法在不丢失信息的情况下操纵这些文件(使用我的 8GB RAM)?
【问题讨论】:
-
我使用 SparkR 在我的 8GB RAM 笔记本电脑上处理更大的数据文件(>>5M 记录)。我尽量避免大连接,但它是可管理的。
标签: r csv dplyr ff r-bigmemory