基于多列拆分，然后在 R 中应用 spread()答案

【问题标题】：Splitting based on multiple columns and then applying spread() in R基于多列拆分，然后在 R 中应用 spread()
【发布时间】：2023-12-14 20:29:01
【问题描述】：

我正在尝试根据 3 列将我的数据拆分为 3 个部分，然后希望分散数据以进行进一步处理。但是，当我使用 2 列拆分时，代码有效。它不适用于 3 列。这是建立在How can I spread repeated measures of multiple variables into wide format? 的讨论之上的

这是我的数据：

structure(list(Zone = c("East", "East", "East", "East", "East", 
"East", "East", "West", "West", "West", "West", "West", "West", 
"West"), Fiscal.Year = c(2016, 2016, 2016, 2016, 2016, 2016, 
2017, 2016, 2016, 2016, 2017, 2017, 2018, 2018), Transaction.ID = c(132, 
133, 134, 135, 136, 137, 171, 171, 172, 173, 175, 176, 177, 178
), L.Rev = c(3, 0, 0, 1, 0, 0, 2, 1, 1, 2, 2, 1, 2, 1), L.Qty = c(3, 
0, 0, 1, 0, 0, 1, 1, 1, 2, 2, 1, 2, 1), A.Rev = c(0, 0, 0, 1, 
1, 1, 0, 0, 0, 0, 0, 1, 0, 0), A.Qty = c(0, 0, 0, 2, 2, 3, 0, 
0, 0, 0, 0, 3, 0, 0), I.Rev = c(4, 4, 4, 0, 1, 0, 3, 0, 0, 0, 
1, 0, 1, 1), I.Qty = c(2, 2, 2, 0, 1, 0, 3, 0, 0, 0, 1, 0, 1, 
1)), .Names = c("Zone", "Fiscal.Year", "Transaction.ID", "L.Rev", 
"L.Qty", "A.Rev", "A.Qty", "I.Rev", "I.Qty"), row.names = c(NA, 
14L), class = "data.frame")

这是有效的代码：

Input_File %>%
gather(Rev_Qty,Value, L.Rev:I.Qty)  %>%
separate(Rev_Qty, into=c("L.A","Rev.Qty")) %>% 
split(.,list(.$Zone,.$Rev.Qty)) %>%  
#Ideally, I want three-way split--i.e. Fiscal.Year, Zone and Rev.Qty
purrr::map(~unite(.,LAType.Rev.Qty, L.A, Rev.Qty, sep = ".")) %>% 
purrr::map(~spread_(.,key_col = "LAType.Rev.Qty", value_col = "Value"))

这很好用——即我得到一个长度为 4 的列表，可用于进一步处理。

但是，当我基于Rev.Qty 应用三向拆分时，以下代码不起作用； Zone 和 Fiscal.Year。

Input_File %>%
gather(Rev_Qty,Value, L.Rev:I.Qty)  %>%
separate(Rev_Qty, into=c("L.A","Rev.Qty")) %>% 
#Now split the data based on zone, Rev vs. Qty and year--DOESN'T WORK
split(.,list(.$Zone,.$Rev.Qty,.$Fiscal.Year)) %>%
purrr::map(~unite(.,LAType.Rev.Qty, L.A, Rev.Qty, sep = ".")) %>% 
purrr::map(~spread_(.,key_col = "LAType.Rev.Qty", value_col = "Value"))

我收到以下错误：

Error in enc2utf8(col_names(col_labels, sep = sep)) : 
  argumemt is not a character vector

经过调试，我发现代码执行良好，直到unite(). 一调用spread_() 就中断。

预期输出：如果我们将代码运行到unite()，我们将看到我们将获得一个长度为12 的列表。预期输出将是在@987654333 上应用spread 后的此列表@ 和 Value 列。我希望这可以澄清预期的输出。

有人可以帮我看看这是怎么回事吗？我是初学者，不知道发生了什么。

【问题讨论】：

@akrun - 感谢您的提问。预期的输出将是数据传播后的列表。我现在添加说明。
FWIW 这是 tidyr 中的一个错误：github.com/tidyverse/tidyr/issues/269

标签： r dplyr tidyr purrr

【解决方案1】：

我们需要split中的drop=TRUE来删除数据集中不存在的组合

Input_File %>%
      gather(Rev_Qty,Value, L.Rev:I.Qty)  %>%
      separate(Rev_Qty, into=c("L.A","Rev.Qty")) %>% 
      split(.,list(.$Zone,.$Rev.Qty,.$Fiscal.Year), drop = TRUE) %>%
      purrr::map(~unite(.,LAType.Rev.Qty, L.A, Rev.Qty, sep = ".")) %>% 
      purrr::map(~spread_(.,key_col = "LAType.Rev.Qty", value_col = "Value"))

【讨论】：

太棒了！你介意解释一下你是如何调试这个问题的吗？我很惊讶！我花了大约两个小时，一无所知......我很感激你的思考过程。我是初学者，所以它会帮助我学习 R。
@watchtower 一步步运行代码，发现split给出了一些list元素0行，然后我想起了drop=TRUE
抱歉需要澄清 - 当你说“我发现 split 给出了一些 0 行的 list 元素。你介意解释一下这是什么意思吗？我重新运行了没有 @987654329 的代码@，但看不到“0 行”。不胜感激。
@watchtower 如果我跑到你的代码中的split 步骤，$East.Rev.2018 [1] Zone Fiscal.Year Transaction.ID L.A Rev.Qty Value <0 rows> (or 0-length row.names) 我会得到这种类型的元素