【问题标题】:Pass a vector with names to mutate to create multiple new columns传递带有名称的向量以进行变异以创建多个新列
【发布时间】:2017-10-24 04:24:00
【问题描述】:

我正在尝试使用包含正确答案的向量重新编码答案。我创建了一个 for 循环,在每个循环中使用带有新列可能名称的向量创建一个新列(带有编码的答案)。

但是,mutate 似乎不接收带有名称的向量。我尝试了一些不同的向量和一些 paste0() 组合,但似乎没有任何效果。

这是我的可复制代码:

library(dplyr)
library(tibble)

correct = c(4, 5, 2, 2, 2, 3, 3, 5, 4, 5, 2, 1, 3, 4, 2, 2, 2, 4, 3, 1, 1, 5, 4, 1, 3, 2)

sub1 = c(3, 5, 1, 5, 4, 3, 2, 5, 4, 3, 4, 4, 4, 1, 5, 1, 4, 3, 3, 4, 3, 2, 4, 2, 3, 4)

df = t(data.frame(sub1))
colnames(df) = paste0("P", 1:26)

new_names = paste0("P", 1:26, "_coded")

for(i in 1:26){


  df = as.tibble(df) %>% 
    mutate(new_names = case_when(.[i] == correct[i] ~ 1, 
                     .[i] != correct[i] ~ 0, 
                     T ~ 9999999))

  print(df) # to know what's going on.

}

另外,我知道 .dots 可以接收向量中的名称(我认为),但我不太明白如何在 mutate() 中将它与 case_when 一起使用。

也欢迎使用其他方法使用重新编码的值创建新列

更新: 我的预期输出将是具有 26 个新列的原始数据框,P1_COD:P26_COD 可能值为 1(如果正确)和 0(如果不正确)。

类似这样(我刚刚创建了四列,以 1 和 0 为例)。

df %>% 
  mutate(P1_COD = 1,
         P2_COD = 0,
         P3_COD = 1,
         P4_COD = 1)

【问题讨论】:

  • 为什么是极宽的表格?长篇大论很简单:data_frame(correct, sub1, cod = as.integer(correct == sub1))
  • 我不建议这样做,但如果你想保持宽格式,这应该可以:df <- cbind(df, setNames(as.data.frame(t(as.numeric(mapply(`==`, df, correct)))), nm = paste0(colnames(df), "_COD")))

标签: r dplyr


【解决方案1】:

数据不是dplyr 处理得最好的格式。我建议将您的数据重组为纵向格式,然后 case_when 变得微不足道,并且不需要 for 循环。

请参阅tidyverse.org documentation 上有关数据格式的其他 tidyr 文档

以下是包含示例数据的“纵向”格式示例。我还添加了其他几个随机答案的主题。

library(tidyverse)
responses <- data_frame(
  subject = rep(1:3, each = 26),
  qNum = rep(1:26, 3),
  response = c(sub1, 
               sample(5, 26, replace = T),
               sample(5, 26, replace = T)))

可以创建答案然后合并:

answers <- data_frame(
  qNum = 1:26,
  answer = correct)
df <- left_join(responses, answers)

接下来,使用dplyr::case_when为答案评分:

df <- df %>% mutate(score = case_when(response == answer ~ 1,
                                TRUE ~ 0))

注意:TRUE ~ 0 一开始可能会让人感到困惑。如果第一个条件为 FALSE,它会告诉如何处理剩余的值。生成的 df/tibble:

# A tibble: 26 x 5
   subject  qNum response answer score
     <dbl> <int>    <dbl>  <dbl> <dbl>
 1       1     1        3      4     0
 2       1     2        5      5     1
 3       1     3        1      2     0
 4       1     4        5      2     0
 5       1     5        4      2     0
 6       1     6        3      3     1
 7       1     7        2      3     0
 8       1     8        5      5     1
 9       1     9        4      4     1
10       1    10        3      5     0
# ... with 16 more rows

如果您想将其转换为“宽”格式,请使用tidyr::spread

df %>%
  select(-response, -answer) %>% 
  spread(qNum, score, sep = ".")
# A tibble: 3 x 27
  subject qNum.1 qNum.2 qNum.3 qNum.4 qNum.5 qNum.6 qNum.7 qNum.8 qNum.9 qNum.10
*   <int>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>   <dbl>
1       1      0      1      0      0      0      1      0      1      1       0
2       2      0      0      0      0      1      0      0      0      0       0
3       3      0      0      0      0      1      0      0      0      0       0

【讨论】:

    猜你喜欢
    • 2020-07-05
    • 2018-05-07
    • 2018-07-31
    • 2022-01-02
    • 1970-01-01
    • 1970-01-01
    • 2020-12-01
    • 1970-01-01
    • 2021-12-18
    相关资源
    最近更新 更多