【发布时间】:2018-04-10 02:45:56
【问题描述】:
我试图弄清楚如何从非常大的表(例如,30'000 行和 50 列)中提取一些特定信息。
想象一下我有这个数据框:
S1 <- c(1,2,1,1,3,1)
S2 <- c(2,1,3,2,1,1)
S3 <- c(1,2,2,1,3,1)
S4 <- c(3,3,4,2,3,1)
S5 <- c(3,2,5,3,2,2)
count <- c(10,5,3,1,1,1)
df <- data.frame(count,S1,S2,S3,S4,S5)
例如,当 S1 和 S3 共享相同的值(哪个值无关紧要)但没有其他列具有相同的值时,我需要对“count”列求和。
在这个例子中,它应该返回值 11,因为我应该只考虑第 1 行和第 4 行中“count”列的值。
在第 2、5 和 6 行中,S1 和 S3 具有相似的值,但我不想考虑它们,因为还有其他列具有相同的值。最后,不考虑第 3 行,因为 S1 和 S3 具有不同的值。
我知道如何在 excel 中轻松做到这一点,但我想知道如何在 R 中做到这一点。我尝试了 dplyr 的一些命令,但失败了。
如果有人能提供帮助,我将非常感激。
【问题讨论】:
标签: r dataframe sum dplyr conditional