【发布时间】:2013-07-07 09:21:56
【问题描述】:
我一直在使用 R 从 NCBI 中检索有关遗传多态性列表的数据(下面最左列中的 rs 数字),如您所见,返回的表包含缺少数据的行(基本上是选项卡没有间隔)。每列有数据的行(例如rs1968866)是找到基因符号的行,我想保留这些并过滤掉那些缺少数据的行。
我熟悉的用于读取表格的命令是read.table(file, header = TRUE),它在这种情况下不起作用,因为 R 读取的某些行与标题不匹配(如 rs11710684)。
有没有人在他们的袖子里只读取与格式列标题匹配的行(每列中的数据)?这会很方便,因为它可以同时让我丢弃不需要的数据。
这是我从 NCBI 检索到的表的示例:
marker genesymbol locusID chr chrpos fxn_class species dupl_loc current.rsid flag
rs11710684 3 166516497 Homo sapiens rs11710684 1
rs1968866 PTRF 284119 17 40566240 intron-variant Homo sapiens rs1968866 1
rs2309920 2 101329860 Homo sapiens rs2309920 1
rs2384319 KIF3C 3797 2 26206255 upstream-variant-2KB Homo sapiens rs2384319 1
rs3128894 6 29839360 Homo sapiens rs3128894 1
rs2277329 SPRYD3 84926 12 53468419 intron-variant Homo sapiens rs2277329 1
rs7785249 DGKB 1607 7 14327966 intron-variant Homo sapiens rs7785249 1
【问题讨论】:
-
您可能需要指定分隔符(
sep参数)。阅读您的数据的文档以了解它是什么。我猜它是制表符分隔的,并且您有多个标签(已被 SO 编辑框删除)。
标签: r filter read.table