如何并行化while循环？答案

【问题标题】：How to parallelize while loops?如何并行化while循环？
【发布时间】：2021-08-24 01:25:34
【问题描述】：

iter <- 1000
myvec <- c()
while(is.null(myvec) || nrow(myvec) <= iter){
 x = rnorm(10, mean = 0, sd = 1)
 if(sum(x) > 2.5){
    myvec <- rbind(myvec, x)
 }
}

我想并行化上面的 while 循环，在那里我不断迭代，直到在 myvec 中总共有 iter = 1000 条目。我在这里查看了this 的帖子，但我认为那里的答案不适用于我的示例。

【问题讨论】：

应该是 sd = 1 而不是 sigma = 1（第 4 行）？
由于循环条件中的数据依赖性，这个循环很难在 R 中有效地并行化，但是您可以通过 (a) 不重复调用 rbind 来提高现有代码的效率，这使得您的算法渐近地变慢，并且（b）生成更大的正态分布随机数矩阵并找到条件不再成立的第一行。然后剪掉剩下的行。

标签： r loops while-loop parallel-processing

【解决方案1】：

实际上，您不需要并行化 while 循环。您可以通过x 对您的操作进行矢量化，如下所示

iter <- 1000
myvec <- c()
while (is.null(myvec) || nrow(myvec) <= iter) {
  x <- matrix(rnorm(iter * 10, mean = 0, sd = 1), ncol = 10)
  myvec <- rbind(myvec, subset(x, rowSums(x) > 2.5))
}
myvec <- head(myvec, iter)

或

iter <- 1000
myvec <- list()
nl <- 0
while (nl < iter) {
  x <- matrix(rnorm(iter * 10, mean = 0, sd = 1), ncol = 10)
  v <- subset(x, rowSums(x) > 2.5)
  nl <- nl + nrow(v)
  myvec[[length(myvec) + 1]] <- v
}
myvec <- head(do.call(rbind, myvec), iter)

我相信即使你有很大的iter 也会快得多。

【讨论】：

使用未来在这里有什么贡献？该值不是（也不能是！）懒惰地计算。而且，无论如何，x 的值的计算在这里并不是慢的部分——重复的rbinding 是。有了你的解决方案（减去未来）就解决了。
@KonradRudolph 我不认为future 有必要或能够加快太多速度。我只是把它放在这里，以防 OP 不知道如何从这个特定问题的链接重写现有答案。无论如何，我提供了另一个基本 R 选项，它更快。
这里future的作者：这里使用future，如myvec[[k]] %<-% x，将采用在主R会话中计算的x的值，导出它给并行工作者，然后它将返回其值。请注意它是如何不并行执行任何计算的。所以，不幸的是，这行不通。它有效地完成了myvec[[k]] <- x 所做的事情，但效率要低得多。我建议你把未来的示例代码丢掉，这样以后就没有人来这里想怎么办了。
@HenrikB 感谢您的评论。我同意用future 删除答案 :)