【问题标题】:reshape2: multiple results of aggregation function?reshape2:聚合函数的多个结果?
【发布时间】:2023-10-01 13:43:01
【问题描述】:

根据我的阅读,reshape2 中的 *cast 操作失去了 result_variable 功能。 Hadley 暗示为此目的使用 plyr(将多个结果列附加到输入数据帧)。我将如何实现文档示例...

aqm <- melt(airquality, id=c("month", "day"), na.rm=TRUE)
cast(aqm, month ~ variable + result_variable, range)

使用reshape2 (dcast) 和plyr (ddply)?

【问题讨论】:

  • 一开始你是不是也跑了names(airquality) &lt;- tolower(names(airquality))
  • 不,列名已经是小写了……没有必要。

标签: r reshape reshape2


【解决方案1】:

由于“reshape2”和“plyr”软件包的灵活性,这个问题有多个答案。我将在这里展示一个最容易理解的示例:

library(reshape2)
library(plyr)

aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

第 1 步:让我们将其分解为多个步骤。首先,让我们先不管“aqm”的定义,并从融化的数据开始工作。这将使示例更容易理解。

aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)

#     Month Day variable value
# 1       5   1    Ozone  41.0
# 2       5   2    Ozone  36.0
# 3       5   3    Ozone  12.0
# 4       5   4    Ozone  18.0
# ...
# 612     9  30     Temp  68.0

第 2 步:现在,我们要将 'value' 列替换为 'min' 和 'max' 列。我们可以使用 'plyr' 包中的 'ddply' 函数来完成此操作。为此,我们使用“ddply”函数(数据帧作为输入,数据帧作为输出,因此是“dd”-ply)。我们首先指定数据。

ddply(aqm,

然后我们指定要用于分组数据的变量,“月份”和“变量”。我们使用. 函数直接引用这个变量,而不是引用它们包含的值。

ddply(aqm, .(Month, variable),

现在我们需要选择一个聚合函数。我们在这里选择summarize 函数,因为我们有不想包含在最终数据中的列(“Day”和“value”)。 summarize 函数将删除所有原始的非分组列。

ddply(aqm, .(Month, variable), summarize,

最后,我们为每个组指定要进行的计算。我们可以参考原始数据框 ('aqm') 的列,即使它们不会包含在我们的最终数据框中。看起来是这样的:

aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))

#    Month variable  min   max
# 1      5    Ozone  1.0 115.0
# 2      5  Solar.R  8.0 334.0
# 3      5     Wind  5.7  20.1
# 4      5     Temp 56.0  81.0
# 5      6    Ozone 12.0  71.0
# 6      6  Solar.R 31.0 332.0
# 7      6     Wind  1.7  20.7
# 8      6     Temp 65.0  93.0
# 9      7    Ozone  7.0 135.0
# 10     7  Solar.R  7.0 314.0
# 11     7     Wind  4.1  14.9
# 12     7     Temp 73.0  92.0
# 13     8    Ozone  9.0 168.0
# 14     8  Solar.R 24.0 273.0
# 15     8     Wind  2.3  15.5
# 16     8     Temp 72.0  97.0
# 17     9    Ozone  7.0  96.0
# 18     9  Solar.R 14.0 259.0
# 19     9     Wind  2.8  16.6
# 20     9     Temp 63.0  93.0

第 3 步:我们可以看到数据大大减少,因为 ddply 函数已经聚合了这些行。现在我们需要再次融合数据,这样我们就可以获得最终数据帧的第二个变量。请注意,我们需要指定一个新的variable.name 参数,因此我们没有两个名为“变量”的列。

aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")

    #    Month variable variable2 value
# 1      5    Ozone       min   1.0
# 2      5  Solar.R       min   8.0
# 3      5     Wind       min   5.7
# 4      5     Temp       min  56.0
# 5      6    Ozone       min  12.0
# ...
# 37     9    Ozone       max  96.0
# 38     9  Solar.R       max 259.0
# 39     9     Wind       max  16.6
# 40     9     Temp       max  93.0

第 4 步:我们最终可以通过将数据转换为最终形式来完成所有工作。

dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

希望这个例子能给你足够的理解来帮助你入门。请注意,“plyr”包的一个新的数据帧优化版本正在以“dplyr”的名义积极开发,因此您可能希望在它变得更加成熟后准备好将您的代码转换为新包。

【讨论】:

    【解决方案2】:

    我认为其他答案应该让您了解如何使用“plyr”或“dplyr”(我鼓励您继续朝这个方向寻找)。

    对于 fun,这里有一个围绕 dcast 的包装器,让您可以指定多个函数。它不适用于返回多个值的函数(如range),并且它要求您使用函数的命名列表。

    dcastMult <- function(data, formula, value.var = "value", 
                       funs = list("min" = min, "max" = max)) {
      require(reshape2)
      if (is.null(names(funs)) | any(names(funs) == "")) stop("funs must be named")
      Form <- formula(formula)
      LHS <- as.character(Form[[2]])
      if (length(LHS) > 1) LHS <- LHS[-1]
      temp <- lapply(seq_along(funs), function(Z) {
        T1 <- dcast(data, Form, value.var = value.var, 
                    fun.aggregate=match.fun(funs[[Z]]), fill = 0)
        Names <- !names(T1) %in% LHS
        names(T1)[Names] <- paste(names(T1)[Names], names(funs)[[Z]], sep = "_")
        T1
      })
      Reduce(function(x, y) merge(x, y), temp)
    }
    

    它看起来有点乱,但结果是您可以坚持使用您熟悉的相同语法,同时可以使用多个聚合函数。 funs 参数的“名称”用作结果名称的后缀。可以按预期指定匿名函数,例如maxSq = function(x) max(x)^2

    dcastMult(aqm, month ~ variable, value.var="value",
           funs = list("min" = min, "max" = max))
    #   month ozone_min solar.r_min wind_min temp_min ozone_max solar.r_max wind_max temp_max
    # 1     5         1           8      5.7       56       115         334     20.1       81
    # 2     6        12          31      1.7       65        71         332     20.7       93
    # 3     7         7           7      4.1       73       135         314     14.9       92
    # 4     8         9          24      2.3       72       168         273     15.5       97
    # 5     9         7          14      2.8       63        96         259     16.6       93
    

    【讨论】:

    • 谢谢我真的很喜欢这个
    • 这是一个非常好的解决方案,但是您可以将参数传递给funs,或者将任何其他参数传递给dcast() 调用吗?怎样才能让它更通用一点?
    【解决方案3】:

    这是一个dplyr 解决方案,它利用了惊人的%&gt;% 功能。它还使用基本的reshape 函数,该函数经常未被充分利用(恕我直言)。代码一目了然。

    library(dplyr)
    airquality %>%
      melt(c('Month', 'Day')) %>%
      group_by(Month, variable) %>%
      summarise(min = min(value, na.rm = T), max = max(value, na.rm = T)) %>%
      reshape(timevar = 'variable', idvar = 'Month', direction = 'wide') %>%
      arrange(Month)
    

    【讨论】:

      【解决方案4】:

      使用recent commitdevelopment version of data.table v1.9.5,我们可以同时转换多个value.var 列(并且还可以在fun.aggregate 中使用多个聚合函数)。请参阅?dcast 了解更多信息以及示例部分。

      这是我们如何使用dcast

      require(data.table) # v1.9.5+
      dt = as.data.table(airquality)
      valvars = c("Ozone", "Solar.R", "Wind", "Temp")
      dcast(dt, Month ~ ., fun=list(min, max), na.rm=TRUE, value.var=valvars)
      #    Month ._min_Ozone ._min_Solar.R ._min_Wind ._min_Temp ._max_Ozone ._max_Solar.R ._max_Wind
      # 1:     5           1             8        5.7         56         115           334       20.1
      # 2:     6          12            31        1.7         65          71           332       20.7
      # 3:     7           7             7        4.1         73         135           314       14.9
      # 4:     8           9            24        2.3         72         168           273       15.5
      # 5:     9           7            14        2.8         63          96           259       16.6
      #    ._max_Temp
      # 1:         81
      # 2:         93
      # 3:         92
      # 4:         97
      # 5:         93
      

      您可以放心地忽略这些警告。

      【讨论】: