【发布时间】:2019-08-03 02:12:28
【问题描述】:
你好 Stackoverflow 社区,
我有一个很大的 csv 文件,基本上太大而无法放入我的计算机内存中。因此,我只想从 csv 文件中读取必要的数据。例如:
Column_A Column_B Column_C
Jan 1 2018
Jan 4 2019
Feb 5 2018
Mar 3 2018
假设我只对 Column_A == 'Jan' 和 Column_C == "2018" 感兴趣。
是否可以仅加载 Column_A == "Jan" 和 Column_C == 2018 的数据(因此在此示例中,仅应返回第 1 行)。
我找到了另一个解决方案,但不幸的是这是“在内存中”(加载到 R 后的数据处理):
impordata <- read.csv("big_file.csv")
impordata <- subset(impordata,Column_C ==2018 & Column_A =="Jan")
【问题讨论】:
-
您可以使用
sqldf读取过滤后的数据。见jofrhwld.github.io/blog/2014/05/23/using_sqldf.html