【发布时间】:2014-11-24 22:05:23
【问题描述】:
我想对我从另一个生成的 data.frame 进行重复数据删除
我的代码库的一部分,无法知道
列和行。 data.frame 有一些我想比较的列
对于重复,这里A和B,但我想然后选择
保留在其他行中包含较少 NA 和零的行
数据框中的列,此处为 C、D 和 E。
tc=
'Id B A C D E
1 62 12 0 NA NA
2 12 62 1 1 1
3 2 62 1 1 1
4 62 12 1 1 1
5 55 23 0 0 0 '
df =read.table(textConnection(tc),header=T)
我可以使用duplicated,但是由于我无法控制
我的数据框所在的列和行,我需要一种方法来获取
具有较少 NA 和零的唯一值。
这将在示例中起作用,但如果传入的 data.frame 则不会 有不同的顺序:
df[!duplicated(data.frame(A=df$A,B=df$B),fromLast=TRUE),]
Id B A C D E
2 2 12 62 1 1 1
3 3 2 62 1 1 1
4 4 62 12 1 1 1
5 5 55 23 0 0 0
有什么想法吗?
【问题讨论】:
-
你知道列名,只是不知道顺序吗?
标签: r