【发布时间】:2017-07-31 15:09:25
【问题描述】:
我想将 df 中的每一行与同一 df 中的每一行进行比较(并计算一些函数)。我已经设法编写了一个 foreach 循环,但它只将每一行与最后一行进行比较。
这是我到目前为止所做的一个最小的我们:
# create toy df
ID <- c(345, 476, 234, 987, 123) # assign random id
Language <- c("aa", "bb", "cc", "dd", "ee") # names of languages
Latitude <- c(-17, -25, 44, -8, 29)
Longitude <- c(130, 29, -122, 120, -110)
sample <- data.frame(ID, Language, Latitude, Longitude)
sample
ID Language Latitude Longitude
1 345 aa -17 130
2 476 bb -25 29
3 234 cc 44 -122
4 987 dd -8 120
5 123 ee 29 -110
# foreach loop that should pair every language with every other
sample.rows <- nrow(sample)
loop <- foreach(i=1:(sample.rows-1),.combine=rbind) %do% {
empty.pairs <- c()
for(j in (i+1):sample.rows){
pairs <- rbind(empty.pairs, c(i, j))
}
data.frame(Lang1 = sample$Language[pairs[,1]],
Lang2 = sample$Language[pairs[,2]],
i= pairs[,1],
j= pairs[,2])
}
输出如下:
loop
Lang1 Lang2 i j
1 aa ee 1 5
2 bb ee 2 5
3 cc ee 3 5
4 dd ee 4 5
即该循环仅将前四行与最后一行进行比较,但我希望它将所有行与所有其他行进行比较,例如语言“aa”不仅应与“ee”进行比较,还应与“bb”、“cc”和“dd”进行比较。 任何提示表示赞赏!
【问题讨论】:
-
您在每个循环上重置 empty.pairs。
-
如果您知道要创建的对象的大小,请预先分配并填充它,而不是增加空对象。
-
@Dave2e:好的,那我该如何避免这样做呢?
-
@F.Privé:真实数据有 2432 行,所以我认为这不是一个可行的解决方案……还是我误解了这个?
-
@Dave2e 感谢您的跟进!我得到了完全相同的输出,所以这似乎不是问题:-/