使用“并行”包在 R 中进行并行处理答案

【问题标题】：Parallel Processing in R using "parallel" package使用“并行”包在 R 中进行并行处理
【发布时间】：2014-03-21 16:31:56
【问题描述】：

我有两个数据框：

> head(k)
          V1
1 1814338070
2 1199215279
3 1283239083
4 1201972527
5  404900682
6 3093614019

> head(g)
  start    end      state      value
1 16777216 16777471 queensland 15169
2 16777472 16778239     fujian     0
3 16778240 16779263   victoria 56203
4 16779264 16781311  guangdong     0
5 16781312 16781823      tokyo     0
6 16781824 16782335      aichi     0

> dim(k)
[1] 624979      1
> dim(g)
[1] 5510305       4

我想比较 data.frame(k) 中的每个值，并匹配它是否适合 data.frame(g) 的开始和结束范围，以及它是否从 data.frame 返回状态值和值(g)

我遇到的问题是由于数据框的尺寸以及进行匹配并返回我想要的值在我的计算机上需要 5 个小时。我使用了以下方法，但无法使用计算机上的所有内核，甚至无法正常工作：

return_first_match_position <- function(int, start,end) {
  match = which(int >= start & int <= end)
  if(length(match) > 0){
    return(match[1])
  }
  else {
    return(match)
  }
}

library(parallel)
cl = makeCluster(detectCores())
matches = Vectorize(return_first_match_position, 'int')(k$V1,g$start, g$end)
p = parSapply(cl, Vectorize(return_first_match_position, 'int')(k$V1,g$start, g$end), return_first_match_position)
stopCluster(cl)

所需的输出是状态和值在 data.frame(g) 中的 data.frame(k) 中的数字的每次匹配时显示的 % 次数

想知道在 R 中有一种智能的并行处理方式吗？任何人都可以建议（任何来源）我如何学习/改进 R 中的写作功能吗？

【问题讨论】：

你能举一个期望输出的例子吗？我相信我有适合你的解决方案，但我想确保我确切地知道你在寻找什么
例如，如果在 data.frame(k) 中，值 1814338070 介于 data.frame(g) 中的 16777472-16778239 范围内，则所需输出为 %state 和 %value .. 只是一个仅供参考的状态和 data.frame(g) 中的值是因素
所以对于 k 中的每个值，您都在寻找状态，值 start
期望的输出是在 data.frame(g) 中的 data.frame(k) 中的数字的每次匹配时，状态和值显示的次数百分比。我道歉应该说清楚，我在此编辑我的问题
能否请您输入（）您的“g”和“k”，然后显示所需输出的示例？这将有很多帮助

标签： r parallel-processing cluster-computing vectorization rstudio

【解决方案1】：

我想你想做一个滚动连接。这可以通过 data.table 非常有效地完成：

DF1 <- data.frame(V1=c(1.5, 2, 0.3, 1.7, 0.5))
DF2 <- data.frame(start=0:3, end=0.9:3.9, 
                  state=c("queensland", "fujian", "victoria", "guangdong"),
                  value=1:4)

library(data.table)
DT1 <- data.table(DF1, key="V1")
DT1[, pos:=V1]
#    V1 pos
#1: 0.3 0.3
#2: 0.5 0.5
#3: 1.5 1.5
#4: 1.7 1.7
#5: 2.0 2.0
DT2 <- data.table(DF2, key="start")
#   start end      state value
#1:     0 0.9 queensland     1
#2:     1 1.9     fujian     2
#3:     2 2.9   victoria     3
#4:     3 3.9  guangdong     4

DT2[DT1, roll=TRUE]
#   start end      state value pos
#1:     0 0.9 queensland     1 0.3
#2:     0 0.9 queensland     1 0.5
#3:     1 1.9     fujian     2 1.5
#4:     1 1.9     fujian     2 1.7
#5:     2 2.9   victoria     3 2.0

【讨论】：

我试过你的方法，但也卡住了.....> df2 df2
好吧，显然你没有提供足够的信息。如果你这样做df2 <- data.table(g); setkey(df2, start)会发生什么？
df2
要么您的数据有问题，要么您在 data.table 中发现了错误。没有可重复的例子就无法判断。如果你可以创建一个，你应该向 data.table 维护者报告。
+1。 @user3006691 碰巧的是，这些错误看起来很熟悉，并且在 R-Forge 提供的 v1.9.3 中得到了修复。如果升级不能解决问题，是的，我们需要看一个可重现的示例。

【解决方案2】：

所以不要大量编辑最后一个（几乎是制作一个新的）..这是你想要的：我注意到在下一行开始之前你的 end 总是 1，所以你想要的（我认为）只是找出每个间隔内有多少个，并为该间隔提供该范围的状态、值。所以

set.seed(123)
c1=seq(1,25,4)
c2=seq(4,30,4)
c3=letters[1:7]
c4=sample(seq(1,7),7)
c.all=cbind(c1,c2,c3,c4)

> c.all  ### example data.frame that looks similar to yours
     c1   c2   c3  c4 
[1,] "1"  "4"  "a" "3"
[2,] "5"  "8"  "b" "7"
[3,] "9"  "12" "c" "2"
[4,] "13" "16" "d" "1"
[5,] "17" "20" "e" "6"
[6,] "21" "24" "f" "5"
[7,] "25" "28" "g" "4"

k1 <- sample(seq(1,18),20,replace=T)

k1
 [1]  2  1 15 14  4 15  3 17 18  1  4  3 16 15  2  4  8 11  7 16

fallsin <- cut(k1,  c(as.numeric(c.all[,1]), max(c.all[,2])), labels=paste(c.all[,3],  c.all[,4],sep=':'), right=F)

fallsin
[1] a:3 a:3 e:6 e:6 a:3 e:6 a:3 f:5 f:5 a:3 a:3 a:3 e:6 e:6 a:3 a:3 c:2 d:1 b:7 e:6
Levels: a:3 b:7 c:2 d:1 e:6 f:5 g:4
prop.table(table(fallsin))

 a:3  b:7  c:2  d:1  e:6  f:5  g:4 
0.45 0.05 0.05 0.05 0.30 0.10 0.00

其中列的名称是“状态：值”，数字是 k1 在该标签范围内的百分比

【讨论】：

是的，这正是我试图解释的（但失败了）。只是我无法为两个巨大的 data.frame k,g 更快地做到这一点
我对 data.table 还没有那么好，但我认为使用 data.table 进行剪切（或类似的东西）会更好，因为排序和索引，所以我会检查'data.table'。 table' 并寻找类似的功能（接近 Roland 建议的）