【发布时间】:2021-07-29 05:57:12
【问题描述】:
我正在尝试合并两个 data.table,它们的长度都在 60-80 百万行左右。我知道 data.table 已经构建,因此它非常擅长合并,但我想知道这种大小的数据是 data.table 仍然比潜在地并行化它更有效,特别是因为我可以访问计算集群。
这就是我目前正在做的事情。
setorder(fcc_temp, BlockCode)
setorder(BlockCode, block_fips)
fcc_temp[block_data_long, c("pop", "tract") := list(pop, tract),
on = c(BlockCode="block_fips", year="year")]
【问题讨论】:
-
也许找出答案的唯一方法是为 10m 行计时?
-
setkey也很受欢迎。
标签: r data.table