减去两个具有不同行数的非常大的数据帧（匹配 XYZ）的有效方法答案

【问题标题】：efficient way substracting two very large data frames with different number of rows (matching XYZ)减去两个具有不同行数的非常大的数据帧（匹配 XYZ）的有效方法
【发布时间】：2015-11-07 15:20:50
【问题描述】：

我有一对非常大的 data.frames df1 和 df2（>500,000 行），行数不同，都包含相同的 4 列（X、Y、Z 坐标和计数属性）。 Doomie 示例：

df1<-data.frame(x=c(3,5,2,4),y=c(8,5,7,6),z=c(13,15,12,10),
      count=c(10,20,4,12))
df2<-data.frame(x=c(4,3,6),y=c(6,9,8),z=c(10,13,15),count=c(4,7,3))

我只想为匹配 XYZ 的行（相同的空间点）减去计数列 (df1$count - df2$count)。我找到了一种使用函数merge() {base} 的方法，但它很慢而且df 非常大。

任何提示我怎样才能让它更快？？？我应该尝试引入并行处理吗？任何提示如何与此类示例并行执行，而无需将 df 切成块？

谢谢。

我的实现：

df3<-merge(df1,df2,by.x=c("x","y", "z"),by.y=c("x","y", "z"),all.x=T,all.y=TRUE)
df3[is.na(df3$count.x),4]<-0
df3[is.na(df3$count.y),5]<-0
df3$countdif<-df3$count.y-df3$count.x

新编辑。 回答： Akrun 的回答中的 2 条建议效果很好。第一个在微基准测试中速度提高了 2 倍，并且也适用于我的大型数据帧。这里是他们的基准：

使用 dplyr {}

dodplyr<- function (a,b){
    dfN<- full_join(a,b, by=c('x', 'y', 'z')) %>%
        mutate_each(funs(replace(., which(is.na(.)), 0)), 
                starts_with('count')) %>%  
        mutate(countdif= count.y-count.x)
    dfN<-select(dfN,-count.x,-count.y)
    return(dfN)
}

和使用 data.table {}

dodata.table<-function(a,b){
    setDT(a)
    setDT(b)
    DT <- merge(a,b, by=c('x', 'y', 'z'), all=TRUE)
    for(j in 4:5){set(DT, i=which(is.na(DT[[j]])), j=j, value=0)}
    DT[, countdif:= count.y-count.x]
    DT[,c("count.x","count.y"):=NULL]
    return(DT)
}

还有微基准：

times <- microbenchmark( dodplyr(df1,df2), dodata.table(df1,df2), times=1e3)
> times
Unit: milliseconds
                   expr      min       lq     mean   median       uq      max neval
      dodplyr(df1, df2) 2.374164 2.489710 2.978814 2.590829 2.704017 18.15356  1000
 dodata.table(df1, df2) 5.094271 5.308994 6.458764 5.534259 5.675328 37.23370  1000

但是，我无法将它们与我使用 merge{base} 和 dfs 的实现进行比较。我试图包含它，但在调用微基准测试时出现错误。这是我尝试过的：

domerge<- function(a,b){
  dfm<-merge(a,b,by.x=c("x","y", "z"),by.y=c("x","y", "z"),all.x=T,all.y=TRUE)
  dfm[is.na(dfm$count.x),4]<-0
  dfm[is.na(dfm$count.y),5]<-0
  dfm$countdif<-dfm$count.y-dfm$count.x
  dfm<-dfm[,c(1:3,6)]
  return(dfm)
}

调用它时有效，例如df3<-domerge(df1,df2) 但在进行微基准测试时会出错：

> times <- microbenchmark(domerge(df1,df2), dodplyr(df1,df2), dodata.table(df1,df2), times=1e3)

Show Traceback

 Rerun with Debug
 Error in merge.data.table(a, b, by.x = c("x", "y", "z"), by.y = c("x",  : 
  Can not match keys in x and y to automatically determine appropriate `by` parameter. Please set `by` value explicitly.

【问题讨论】：

merge() 在当前的开发版本 1.9.5 中有不少改进。但是对于旨在扩展大数据的工具而言，us/ms 规模的基准相对没有意义，而且您很可能只是测量 [.data.table 调用的开销。
@Arun，非常感谢您的评论。对不起，我的无知，但你的意思是：“我们/毫秒尺度上的基准对于旨在扩展大数据的工具来说相对没有意义”。另一方面，您是否认为这种情况下 data.table 方法的实际性能可能比 dplyr 更快？我怎么知道除了基准测试之外哪个性能更好？谢谢！

标签： r dataframe parallel-processing large-data

【解决方案1】：

我猜dplyr 中的full_join 会比merge 更快（虽然没有测试）。在我们完成full_join 之后，'count' 列中的'NAs' 是replaced by '0' 使用mutate_each 然后我们使用mutate 创建'countdif' 列

library(dplyr)
dfN <- full_join(df1,df2, by=c('x', 'y', 'z')) %>%
           mutate_each(funs(replace(., which(is.na(.)), 0)), 
                           starts_with('count')) %>%  
           mutate(countdif= count.y-count.x) 
dfN
#  x y  z count.x count.y countdif
#1 3 8 13      10       0      -10
#2 5 5 15      20       0      -20
#3 2 7 12       4       0       -4
#4 4 6 10      12       4       -8
#5 3 9 13       0       7        7
#6 6 8 15       0       3        3

或者使用来自data.table 的merge.data.table 的可能方法。我们将“data.frame”都转换为“data.table”（setDT(df1)、setDT(df2)）。然后，使用merge.data.table 执行full-join。我们用set 将for 循环中的'count' 列中的'NA' 值替换为0（这里是第4 列和第5 列）（set 非常有效，因为它没有@987654338 @ 开销。我们分配 (:=) 新列 'countdif' 作为 'count.y' 和 'count.x' 之间的差异

library(data.table)
setDT(df1)
setDT(df2)
DT <- merge(df1, df2, by=c('x', 'y', 'z'), all=TRUE)

for(j in 4:5){
         set(DT, i=which(is.na(DT[[j]])), j=j, value=0)
  }
DT[, countdif:= count.y-count.x]
DT
#   x y  z count.x count.y countdif
#1: 2 7 12       4       0       -4
#2: 3 8 13      10       0      -10
#3: 3 9 13       0       7        7
#4: 4 6 10      12       4       -8
#5: 5 5 15      20       0      -20
#6: 6 8 15       0       3        3

【讨论】：

谢谢阿克伦。任何提示哪个可能更快 dplyr 或 data.table？我不熟悉如何衡量 2 个备选方案的性能。
@josetanago 我会假设data.table 版本很快，因为最后两个步骤replacing NA with 0 和assigning 一个新列非常快。要测量时间，您可以使用?system.time 或?microbenchmark from library(microbenchmark)
@josetanago 感谢您的反馈。
我根据您的两条建议做了微基准测试，使 dplyr 的速度提高了一半。我应该在哪里发布它的结果？在这里作为评论？编辑我的问题？或添加答案？
@josetanago 感谢您的基准测试。您能否编辑您的帖子并更新结果。不过这很有趣。顺便说一句，这些方法比merge 快吗？

【解决方案2】：

你必须像这个例子一样创建一个减法算法：

（如果他们有独立的 ALU）

y=1
while y <= "end.of.y"
 Core one > df1={1,1,y} - df2={1,1,y}
 //you subtract the y until the end of y column is reached 
 //saving in another matrix called as you want, then
 Core two > df1={1,1,y+1} - df2={1,1,y+1}
 ...
 Core eight > df1={1,1,y+7} - df2={1,1,y+7}
 y=y+8 
endwhile

对另一个轴 x 和 z 执行相同的操作（嵌套循环循环）。直到他们走到尽头。

如果您的处理器中只有 4 个 ALU，您必须这样做，但只使用 4 个“内核”

我希望这会有所帮助。

【讨论】：

谢谢莱昂纳多。在您的实现中，我不太了解如何首先匹配 2 个 dfs 中的 XYZ，这是减去两者（只有这一列）的第 4 列的条件。拜托，你能再解释一下吗？