【发布时间】:2021-06-03 21:35:24
【问题描述】:
我有一个包含词频和其他一些随机人口统计变量的数据框。我想利用两个分组变量,删除不需要的变量,然后根据分组变量对频率求和。
这里和我的差不多
df <- data.frame(user= c(1:9),
Group1 = c("a", "a", "a", "b", "b","b","c", "c", "c"),
Group2 = c("d", "e", "d", "e", "d", "e", "e", "e", "e"),
term1 = c(0, 1, 1, 0, 1, 1, 0, 0, 0),
term2 = c(1, 0, 1, 1, 0, 1, 0, 1, 1),
term3 = c(0, 1, 0, 0, 0, 0, 1, 1, 0))
这就是我想要得到的。
desired <- data.frame(Group1 = c("a", "a", "b", "b", "c", "c"),
Group2 = c("d", "e", "d", "e", "d", "e"),
term1 = c(1, 1, 1, 1, 0, 0),
term2 = c(2, 0, 0, 2, 0, 2),
term3 = c(0, 1, 0, 0, 0, 2))
我的真实框架有大约 4000 个术语列,因此在 dplyr 函数中命名每个个体似乎不可行。
谢谢!
【问题讨论】:
标签: r