【发布时间】:2013-08-09 14:12:43
【问题描述】:
我有许多包含约 10 列和约 200000 行的大型数据集。并非所有列都包含每一行的值,尽管至少一列必须包含要存在的行的值,但我想为一行中允许多少 NAs 设置一个阈值。
我的数据框看起来像这样:
ID q r s t u v w x y z
A 1 5 NA 3 8 9 NA 8 6 4
B 5 NA 4 6 1 9 7 4 9 3
C NA 9 4 NA 4 8 4 NA 5 NA
D 2 2 6 8 4 NA 3 7 1 32
我希望能够删除包含超过 2 个包含 NA 的单元格的行来获取
ID q r s t u v w x y z
A 1 5 NA 3 8 9 NA 8 6 4
B 5 NA 4 6 1 9 7 4 9 3
D 2 2 6 8 4 NA 3 7 1 32
complete.cases 删除所有包含任何NA 的行,我知道可以删除某些列中包含NA 的行,但有没有办法修改它,以便不具体说明哪些列包含@ 987654327@,但是总共有多少呢?
或者,这个数据帧是通过使用合并几个数据帧来生成的
file1<-read.delim("~/file1.txt")
file2<-read.delim(file=args[1])
file1<-merge(file1,file2,by="chr.pos",all=TRUE)
也许合并功能可以改变?
谢谢
【问题讨论】: