【发布时间】:2021-03-18 00:05:51
【问题描述】:
我有 500 个 tar.xz 文件,其中包含 2000 个 csv 文件。我需要一次解压几个 tar 文件(因为磁盘空间),将它们处理成 data.table,从磁盘中删除 csv 文件,然后将结果保存为 RDS,然后再继续下几个 tar 文件。
我的函数在串行中运行良好,但在并行时它会在内核之间混淆文件。这是为什么呢?
一些样本数据:
for(j in 1:5){
for(i in 1:5){
a<-df[sample(x = 1:nrow(df), size = 50, replace = TRUE),]
write.csv(a,paste0("seed_",i,".csv"))
lf<-list.files(pattern=".csv")
}
tar(tarfile = paste0("seed_",j,".tar"),files = lf,compression = c("xz"), tar="tar")
}
foreach 示例代码
require(dplyr)
require(tidyr)
require(foreach)
require(doParallel)
require(magrittr)
#List all tar files in directory
list_of_files<-list.files(pattern = ".tar")
packsINeed<-c("vroom","magrittr","dplyr","tidyr","doParallel")
#Start for loop
myCluster<-makeCluster(6,type="PSOCK")
registerDoParallel(myCluster)
foreach(i= 1:NROW(list_of_files),.packages = packsINeed)%dopar%{
print(paste(list_of_files[i], "which is", i, "of", NROW(list_of_files) ))
print("2. Untar .csv files inside")
untar(tarfile = list_of_files[i], exdir = "tempOutputFiles")
print("#3. Read in files and add up two columns")
df<-vroom::vroom(list.files("tempOutputFiles/$.csv"), id="path")
df$A<-df$B+df$C
print("#4. save RDS")
saveRDS(object = df, file = paste0(tools::file_path_sans_ext(list_of_files[i], compression = TRUE),".rds"))
print("#5. Clean up files")
.files<-list.files("tempOutputFiles",pattern=".csv")
file.remove(basename(.files))
}
使用 mclapply - 行为相同
require(dplyr)
require(tidyr)
require(foreach)
require(doParallel)
require(magrittr)
#List all tar files in directory
list_of_files<-list.files(pattern = ".tar")
myParFun
print(paste(filename))
print("2. Untar all .csv files inside")
untar(tarfile = filename, exdir = "tempOutputFiles")
print("#3. Read in files and add up two columns")
df<-vroom::vroom(list.files("tempOutputFiles/$.csv"), id="path")
df$A<-df$B+df$C
print("#4. save RDS")
saveRDS(object = df, file = paste0(tools::file_path_sans_ext(filename, compression = TRUE),".rds"))
print("#5. Clean up files")
.files<-list.files("tempOutputFiles",pattern=".csv")
file.remove(.files)
}
mclapply(FUN=myParFun, list_of_files, mc.cores=4)
根据 Waldi 的评论,我为 list_of_files 中的每个文件创建了一个目录,现在它可以正常工作了。但是有打鼾的方法吗?以 tempdir 为例?
【问题讨论】:
-
您能否提供一些代码,至少了解一下您是如何设计代码的?
-
感谢您查看此内容。我已经添加了循环的基本框架。我对文件的实际处理需要一段时间,但这只是一个示例。
-
这看起来很奇怪:
file.remove(basename(.files))。这些文件已经是基本名称,我认为它们不应该。 -
啊,那是因为我认为 untar 提供了完整的路径。我发现文件在整个循环完成之前就被删除了,这很奇怪。
-
这里 (
files<-list.files("tempOutputFiles",pattern=".csv")) 你从这个目录中得到所有的 csv 文件(但只有基本名称,如果你想得到完整的路径,有一个参数)。
标签: r foreach doparallel mclapply