【发布时间】:2017-10-24 04:24:00
【问题描述】:
我正在尝试使用包含正确答案的向量重新编码答案。我创建了一个 for 循环,在每个循环中使用带有新列可能名称的向量创建一个新列(带有编码的答案)。
但是,mutate 似乎不接收带有名称的向量。我尝试了一些不同的向量和一些 paste0() 组合,但似乎没有任何效果。
这是我的可复制代码:
library(dplyr)
library(tibble)
correct = c(4, 5, 2, 2, 2, 3, 3, 5, 4, 5, 2, 1, 3, 4, 2, 2, 2, 4, 3, 1, 1, 5, 4, 1, 3, 2)
sub1 = c(3, 5, 1, 5, 4, 3, 2, 5, 4, 3, 4, 4, 4, 1, 5, 1, 4, 3, 3, 4, 3, 2, 4, 2, 3, 4)
df = t(data.frame(sub1))
colnames(df) = paste0("P", 1:26)
new_names = paste0("P", 1:26, "_coded")
for(i in 1:26){
df = as.tibble(df) %>%
mutate(new_names = case_when(.[i] == correct[i] ~ 1,
.[i] != correct[i] ~ 0,
T ~ 9999999))
print(df) # to know what's going on.
}
另外,我知道 .dots 可以接收向量中的名称(我认为),但我不太明白如何在 mutate() 中将它与 case_when 一起使用。
也欢迎使用其他方法使用重新编码的值创建新列
更新: 我的预期输出将是具有 26 个新列的原始数据框,P1_COD:P26_COD 可能值为 1(如果正确)和 0(如果不正确)。
类似这样(我刚刚创建了四列,以 1 和 0 为例)。
df %>%
mutate(P1_COD = 1,
P2_COD = 0,
P3_COD = 1,
P4_COD = 1)
【问题讨论】:
-
为什么是极宽的表格?长篇大论很简单:
data_frame(correct, sub1, cod = as.integer(correct == sub1)) -
我不建议这样做,但如果你想保持宽格式,这应该可以:
df <- cbind(df, setNames(as.data.frame(t(as.numeric(mapply(`==`, df, correct)))), nm = paste0(colnames(df), "_COD")))。