【发布时间】:2013-05-30 23:18:03
【问题描述】:
R 中是否有一种方法(可能近似)估计 write.csv 文件(或其他导出命令,例如 dev.copy2pdf)的文件大小?
【问题讨论】:
R 中是否有一种方法(可能近似)估计 write.csv 文件(或其他导出命令,例如 dev.copy2pdf)的文件大小?
【问题讨论】:
我还没有听说过这样的事情,但至少有一个估计 csv 大小的想法。
csvSizeEst <- function(obj, frac=0.01) {
tf <- tempfile()
on.exit(unlink(tf))
n <- ceiling(nrow(obj) * frac)
write.csv(obj[seq_len(n),], file=tf)
1/frac * file.info(tf)$size
}
x <- data.frame(replicate(5, rnorm(500)))
## Estimated file size, based on a 1% sample (the default sample size)
csvSizeEst(x)
# [1] 50700
## Set fraction of file to 1 to get actual file size
csvSizeEst(x, frac=1)
# [1] 48904
此外,要对 R 中的 data.frame 大小(由 object.size 报告)和写成 .csv 文件时的观察关系有一个数量级的意义,请尝试以下操作。 (作为一个 +/- 代表性样本,我在这里检查了 datasets 包中的所有 data.frames。)
oo <- ls("package:datasets")
dfs <- oo[sapply(oo, function(X) is.data.frame(get(X)))]
r <- sapply(dfs, function(X) {
X <- get(X)
csvSizeEst(X,1)/object.size(X)
})
hist(r, breaks=20, col="lightgrey", xlim=c(0,1.5),
main="Ratio of size-on-disk to object.size in R")
【讨论】:
seq_len(n) 而不是1:n?)
seq_len,这只是我养成的一般编程习惯,但在这里没有任何区别。要查看它确实产生影响的一个案例,试试这个:n <- 0; 1:n; seq_len(n)。
seq_len