tidyr：在不展开所有列的情况下展开答案

【问题标题】：tidyr: spread without expanding all columnstidyr：在不展开所有列的情况下展开
【发布时间】：2023-12-25 20:03:01
【问题描述】：

开始学习 tidyr 并在使用 spread() 时遇到问题。

这是一个假的实验数据集：

library(tidyr)
df <- structure(list(mood = c(0.855, -0.103, 0.421, -0.222, 0.772, -0.027, -1.088, 0.923, -1.516, -1.503, -0.358, -0.357, -0.344, 0.294, 0.348, -0.174, 0.872, -1.188, 0.842, -0.246, -0.758, 0.674, 0.045, 0.72, -1.253, 0.00599999999999995, -0.0749999999999999,1.623, -1.754, -0.44, -0.607, -0.083, -0.827, -0.337, -0.6, 0.429, -0.383, -1.755, 0.894, 0.146, -0.658, -0.409, -0.531, 1.388, -0.688, 0.521, -0.662, 0.852, -1.363, 0.18, -0.775, 0.393, -0.926, 0.809, -0.857, 0.889, 0.0969999999999999, -1.553, -0.21,1.769, -0.114, -0.203, 0.805, 0.186, 0.286, -0.076, 0.137, 1.208, 0.33, 0.34, 0.832, 0.815, -0.427, 0.444, -0.838, 1.45, 1.701, -2.265, 0.531, 0.808),
  subj = structure(c(1L, 12L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L,11L, 13L, 1L, 12L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 13L, 1L, 12L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 13L, 1L, 12L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 2L, 3L, 4L, 5L,6L, 7L, 8L, 9L, 10L, 11L, 13L), .Label = c("s1", "s10", "s11", "s12", "s13", "s14", "s15", "s16", "s17", "s18", "s19", "s2", "s20", "s3", "s4", "s5", "s6", "s7", "s8", "s9"), class = "factor"),
  depressed = structure(c(2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L,1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L,2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L), .Label = c("no", "yes"), class = "factor"), 
  activity = structure(c(2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = c("exercize", "relaxation"), class = "factor"), 
  drug = structure(c(1L, 1L,1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L,2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("placebo", "SSRI"), class = "factor")), .Names = c("mood", "subj", "depressed", "activity", "drug"), row.names = c(NA, -80L), class = "data.frame")

看一下df，我们可以看到activity 和drug 是学科内因素，而depressed 是学科间因素：

head(arrange(df, subj))
    mood subj depressed   activity    drug
1  0.855   s1       yes relaxation placebo
2 -0.758   s1       yes relaxation    SSRI
3 -0.658   s1       yes   exercize placebo
4 -0.114   s1       yes   exercize    SSRI
5 -1.503  s10        no relaxation placebo
6 -0.440  s10        no relaxation    SSRI

我想将df 转换为宽格式，其中每个主题的mood 表示在单独的列中，每一行对应于activity 和drug 的组合。不幸的是，我不知道如何避免为depressed 的每个级别创建行集。到目前为止，这是我所拥有的：

df %>% spread(subj, mood) %>% `[`(1:5)
  depressed   activity    drug     s1   s10
1        no   exercize placebo     NA  0.18
2        no   exercize    SSRI     NA  0.34
3        no relaxation placebo     NA -1.50
4        no relaxation    SSRI     NA -0.44
5       yes   exercize placebo -0.658    NA
6       yes   exercize    SSRI -0.114    NA
7       yes relaxation placebo  0.855    NA
8       yes relaxation    SSRI -0.758    NA

我想避免扩展 depressed，因此结果输出将只有四行。

【问题讨论】：

我很困惑。你说你想要四列，但你正在传播有 20 个级别的主题列，所以你将得到 20 列主题情绪加上其他列。您能否仅针对前两个主题显示您想要的输出？
@docendodiscimus，我做了几个猜测，但最后想不出任何明智的办法。我认为我们需要等待澄清。
抱歉，打错字了——四行。因此，每一行对应于每个受试者的四个观察结果。谢谢。
但是是的 @docendo_discimus 你提供的 sn-p 正是我想要的。将其发布为答案，我会很乐意接受
ribo，请随意回答您的问题并接受解决方案。我只是猜测。

标签： r tidyr

【解决方案1】：

感谢 @decendodiscimus 在 cmets 中提供解决方案。

使用dplyr::select 和- 在“宽”格式中消除主题因素很简单。

> library(dplyr)
> df <- tbl_df(df)
> df %>% select(-depressed) %>% spread(subj, mood)
Source: local data frame [4 x 22]

    activity    drug     s1    s10    s11    s12    s13    s14    s15    s16
1   exercize placebo -0.658  0.180 -0.775  0.393 -0.926  0.809 -0.857  0.889
2   exercize    SSRI -0.114  0.340  0.832  0.815 -0.427  0.444 -0.838  1.450
3 relaxation placebo  0.855 -1.503 -0.358 -0.357 -0.344  0.294  0.348 -0.174
4 relaxation    SSRI -0.758 -0.440 -0.607 -0.083 -0.827 -0.337 -0.600  0.429

【讨论】：