如何避免大数据集的慢循环？答案

【问题标题】：How do I avoid a slow loop with large data set?如何避免大数据集的慢循环？
【发布时间】：2018-01-07 16:35:29
【问题描述】：

考虑这个数据集：

> DATA <- data.frame(Agreement_number = c(1,1,1,1,2,2,2,2),
+                    country = c("Canada","Canada", "USA", "USA", "Canada","Canada", "USA", "USA"), 
+                    action = c("signature", "ratification","signature", "ratification", "signature", "ratification","signature", "ratification"), 
+                    signature_date = c(2000,NA,2000,NA, 2001, NA, 2002, NA),
+                    ratification_date = c(NA, 2001, NA, 2002, NA, 2001, NA, 2002))
> DATA
Agreement_number country       action signature_date ratification_date
              1  Canada    signature           2000                NA
             1  Canada ratification             NA              2001
             1     USA    signature           2000                NA
             1     USA ratification             NA              2002
             2  Canada    signature           2001                NA
             2  Canada ratification             NA              2001
             2     USA    signature           2002                NA
             2     USA ratification             NA              2002

如您所见，一半的行有重复信息。对于像这样的小型数据集，删除重复项非常容易。我可以使用coalesce 函数（dplyr package），去掉“action”列，然后删除所有不相关的行。不过，还有很多其他的方法。最终结果应如下所示：

> DATA <- data.frame( Agreement_number = c(1,1,2,2),
+                     country = c("Canada", "USA", "Canada","USA"), 
+                     signature_date = c(2000,2000,2001,2002),
+                     ratification_date = c(2001, 2002, 2001, 2002))
> DATA
Agreement_number country signature_date ratification_date
             1  Canada           2000              2001
             1     USA           2000              2002
             2  Canada           2001              2001
             2     USA           2002              2002

问题在于，我的真实数据集要大得多（102000 x 270）并且变量更多。真实数据也更不规则，缺失值也更多。 coalesce 函数似乎很慢。到目前为止，我能做的最好的循环仍然需要 5-10 分钟才能运行。

有没有一种更快的简单方法？我感觉R中一定有这种操作的函数，但是我找不到。

【问题讨论】：

欢迎来到 Stack Overflow！我对您的问题进行了一些编辑，以提高清晰度，以帮助您获得答案。祝你好运！
stackoverflow.com/questions/42567075/…的可能重复
感谢大家的回答！我实际上在我的代码中早先解决了这个问题，但我受到了你的回答的启发。

标签： r dataframe large-data

【解决方案1】：

我认为你需要dcast。 data.table 库中的版本自称“快速”，根据我的经验，它在大型数据集上速度很快。

首先，让我们创建一个列，它是signature_date 或ratification_date，具体取决于操作

library(data.table)
setDT(DATA)[, date := ifelse(action == "ratification", ratification_date, signature_date)]

现在，让我们对其进行强制转换，以便操作是列，值是日期

wide <- dcast(DATA, Agreement_number + country ~ action, value.var = 'date')

这么宽看起来像这样

  Agreement_number country ratification signature
1                1  Canada         2001      2000
2                1     USA         2002      2000
3                2  Canada         2001      2001
4                2     USA         2002      2002

【讨论】：

不幸的是，答案包含几个缺陷：（1）dcast() 可从两个包中获得：reshape2 和 data.table。缺少对library() 的相关调用。 (2) 即使加载了data.table，如果将data.frame 传递给dcast()，它也会调度较慢的reshape2 版本。要使用更快的版本，需要将DATA 强制转换为data.table 类的对象。这段代码也不见了。 (3) 附加列DATA$date 的计算not 使用高效的data.table 语法。 (4) 它不处理任何额外的列。
感谢您的建设性批评。对此最好的补救措施是什么？我应该尝试编辑答案以解决这些缺陷，还是干脆将其删除，因为这里现在有更好的答案？
请不要删除您的答案。您首先使用dcast() 方法，我的回答是参考它。请尽可能改进你的答案。
为了学习 data.table 我推荐 github.com/Rdatatable/data.table/wiki/Getting-started 上的小插曲和常见问题解答，以及 Frank 的 快速 R 教程 franknarf1.github.io/r-tutorial/_book 的第 3 章

【解决方案2】：

OP 告诉他，他的生产数据有 10 万行 x 270 列，速度是他关心的问题。因此，我建议使用data.table。

我知道Harland 也建议使用data.table 和dcast()，但下面的解决方案是一种不同的方法。它以正确的顺序排列行并将ratification_date 复制到签名行。经过一些清理后，我们得到了预期的结果。

library(data.table)

# coerce to data.table,
# make sure that the actions are ordered properly, not alphabetically
setDT(DATA)[, action := ordered(action, levels = c("signature", "ratification"))]

# order the rows to make sure that signature row and ratification row are
# subsequent for each agreement and country
setorder(DATA, Agreement_number, country, action)

# copy the ratification date from the row below but only within each group
result <- DATA[, ratification_date := shift(ratification_date, type = "lead"), 
                by = c("Agreement_number", "country")][
                  # keep only signature rows, remove action column
                  action == "signature"][, action := NULL]
result

   Agreement_number country signature_date ratification_date dummy1 dummy2
1:                1  Canada           2000              2001      2      D
2:                1     USA           2000              2002      3      A
3:                2  Canada           2001              2001      1      B
4:                2     USA           2002              2002      4      C

数据

OP 提到他的生产数据有 270 列。为了模拟这一点，我添加了两个虚拟列：

set.seed(123L)
DATA <- data.frame(Agreement_number = c(1,1,1,1,2,2,2,2),
country = c("Canada","Canada", "USA", "USA", "Canada","Canada", "USA", "USA"), 
action = c("signature", "ratification","signature", "ratification", "signature", "ratification","signature", "ratification"), 
signature_date = c(2000,NA,2000,NA, 2001, NA, 2002, NA),
ratification_date = c(NA, 2001, NA, 2002, NA, 2001, NA, 2002),
dummy1 = rep(sample(4), each = 2L),
dummy2 = rep(sample(LETTERS[1:4]), each = 2L))

请注意，set.seed() 用于采样时的可重复结果。

  Agreement_number country       action signature_date ratification_date dummy1 dummy2
1                1  Canada    signature           2000                NA      2      D
2                1  Canada ratification             NA              2001      2      D
3                1     USA    signature           2000                NA      3      A
4                1     USA ratification             NA              2002      3      A
5                2  Canada    signature           2001                NA      1      B
6                2  Canada ratification             NA              2001      1      B
7                2     USA    signature           2002                NA      4      C
8                2     USA ratification             NA              2002      4      C

附录：`dcast()` 附加列

Harland 建议使用data.table 和dcast()。除了他的回答中的其他几个缺陷之外，它还没有处理 OP 提到的其他列。

下面的dcast() 方法也将返回额外的列：

library(data.table)

# coerce to data table
setDT(DATA)[, action := ordered(action, levels = c("signature", "ratification"))]

# use already existing column to "coalesce" dates
DATA[action == "ratification", signature_date := ratification_date]
DATA[, ratification_date := NULL]

# dcast from long to wide form, note that ... refers to all other columns
result <- dcast(DATA, Agreement_number + country + ... ~ action, 
                value.var = "signature_date")
result

   Agreement_number country dummy1 dummy2 signature ratification
1:                1  Canada      2      D      2000         2001
2:                1     USA      3      A      2000         2002
3:                2  Canada      1      B      2001         2001
4:                2     USA      4      C      2002         2002

请注意，这种方法会改变列的顺序。

【讨论】：

【解决方案3】：

这是另一个使用 uwe-block 的 data.frame 的data.table 解决方案。类似于uwe-block的方法，但是使用max折叠数据。

# covert data.frame to data.table and factor variables to character variables
library(data.table)
setDT(DATA)[, names(DATA) := lapply(.SD,
                                    function(x) if(is.factor(x)) as.character(x) else x)]

# collapse data set, by agreement and country. Take max of remaining variables.
 DATA[, lapply(.SD, max, na.rm=TRUE), by=.(Agreement_number, country)][,action := NULL][]

lapply 遍历未包含在 by 语句中的变量，并在删除 NA 值后计算最大值。链中的下一个链接删除不需要的操作变量，最后一个（不必要的）链接打印输出。

   Agreement_number country signature_date ratification_date dummy1 dummy2
1:                1  Canada           2000              2001      2      D
2:                1     USA           2000              2002      3      A
3:                2  Canada           2001              2001      1      B
4:                2     USA           2002              2002      4      C

【讨论】：

数据

附录：dcast() 附加列

附录：`dcast()` 附加列