【发布时间】:2020-09-07 17:36:37
【问题描述】:
我想将数据帧转换为磁盘帧,然后计算第一列。当我尝试它时,它不计算列的唯一值的数量。它似乎在计算工人的数量。
library(disk.frame)
options(future.globals.maxSize = Inf)
setup_disk.frame(workers = 8)
这是一个示例数据集
bigint <- sample(123901239804:901283455390, 3*10^5)
df <- data.frame(bigint)
df %>%
summarize(ints = length(unique(bigint)))
df %>%
as.disk.frame %>%
summarize(ints = length(bigint)) %>%
collect
在第一个查询中,我得到了这个输出
ints
1 300000
在第二个查询中,我得到了这个输出
ints
1 8
【问题讨论】:
标签: r disk.frame