【发布时间】:2016-02-26 14:31:45
【问题描述】:
我有许多 .csv 文件,包含相同“人口”的变量,由 surname 和 first.name 键入。
所以每个csv 都有三列:名字、姓氏和感兴趣的变量。
我将它们中的每一个加载到单独的数据表中,然后我想将它们合并。
library(data.table)
surnames <- c('A', 'B')
first.names <- c('C', 'D')
weights <- c(80, 90)
heights <- c(180, 190)
write.csv(data.frame(surname = surnames, first.name = first.names,
height = heights), file = 'variable-height.csv')
write.csv(data.frame(surname = surnames, first.name = first.names,
weight = weights), file = 'variable-weight.csv')
variables.to.load <- c('height', 'weight')
for (i in variables.to.load) {
assign(paste0('DT.', i), fread(paste0('variable-', i, '.csv')))
print(dim(eval(parse(text = paste0('DT.', i)))))
setkey(eval(parse(text = paste0('DT.', i))), surname, first.name)
}
加载它们并正确设置键。 不过,我缺少的是自动合并。
DT.merged <- Reduce(merge, list(DT.height, DT.weight))
有效,但我想以自动方式进行,因为实际变量更多。也就是我想自动写list():DT.height,DT.weight等的内容。
我试过了:
library('stringr')
DT.merged <- Reduce(merge, list(eval(parse(text = str_c(paste0('DT.', variables.to.load), collapse = ', ')))))
没有结果。
我完成了整个过程,因为我想为我的人口有选择地使用不同的变量(总计超过 30GB 和大约 30 个变量的 csv)。所以在完整的csv 上使用fread 来选择性地读取列似乎相当慢。
【问题讨论】:
-
重复一遍:“在我们成为 R 专家并需要它之前,我们不会使用
assign,因为我们使用的是环境”。fread将文件放入list(最简单的lapply)。然后您可以在该列表中使用Reduce。 -
一开始你说你有很多 CSV 文件要阅读,但最后你似乎暗示你可以打开其他包含所有列的文件,这将消除其中的棘手部分你正在尝试做。几乎不可能打开大量 CSV 文件并合并它们,而不是打开一个包含所有数据的 csv 文件。
-
你是不是偶然在寻找
fread的select参数? -
@DeanMacGregor 你是对的。我没有正确解释这一点。我这样做是因为在我的分析过程中,我想为我的 DT 添加和删除列/变量,以提高我可怜的笔记本电脑的内存效率,因为原来的“合并”
.csv大约是 35Gb。因此,正如@Roland 建议的那样,如果我只需要阅读一列,在fread中使用非常有用的select也会变慢。 -
@Roland 在
assign评论:) 是的,使用列表确实是诀窍!谢谢!
标签: r csv data.table eval