【发布时间】:2016-12-03 14:34:35
【问题描述】:
我有一个像这样的简单数据框:
| id1 | id2 | location | comment |
|-----|-----|------------|-----------|
| 1 | 2 | Alaska | cold |
| 2 | 1 | Alaska | freezing! |
| 3 | 4 | California | nice |
| 4 | 5 | Kansas | boring |
| 9 | 10 | Alaska | cold |
前两行是重复的,因为 id1 和 id2 都去了阿拉斯加。他们的评论不同并不重要。
如何删除这些重复项之一 - 删除任何一个都可以。
我首先尝试对id1 和id2 进行排序,然后获取它们重复的索引,然后返回并使用索引对原始df 进行子集化。但我似乎无法做到这一点。
df <- data.frame(id1 = c(1,2,3,4,9), id2 = c(2,1,4,5,10), location=c('Alaska', 'Alaska', 'California', 'Kansas', 'Alaska'), comment=c('cold', 'freezing!', 'nice', 'boring', 'cold'))
【问题讨论】:
标签: r dataframe duplicates