【发布时间】:2015-12-07 10:37:45
【问题描述】:
我有这个VCF format file,我想在 R 中读取这个文件。但是,这个文件包含一些我想跳过的冗余行。我想得到类似于行以匹配#CHROM 的行开头的结果。
这是我尝试过的:
chromo1<-try(scan(myfile.vcf,what=character(),n=5000,sep="\n",skip=0,fill=TRUE,na.strings="",quote="\"")) ## find the start of the vcf file
skip.lines<-grep("^#CHROM",chromo1)
column.labels<-read.delim(myfile.vcf,header=F,nrows=1,skip=(skip.lines-1),sep="\t",fill=TRUE,stringsAsFactors=FALSE,na.strings="",quote="\"")
num.vars<-dim(column.labels)[2]
我的文件.vcf
#not wanted line
#unnecessary line
#junk line
#CHROM POS ID REF ALT
11 33443 3 A T
12 33445 5 A G
结果
#CHROM POS ID REF ALT
11 33443 3 A T
12 33445 5 A G
【问题讨论】:
-
使用测序包怎么样?如果你用谷歌搜索“read vcf R”,就会有一些
-
Bioconductor 有几个 VCF 阅读器。
-
@RichardScriven vcfreader 不适合我的情况。我只想跳过这些行并获取制表符分隔的表格。
标签: r bioinformatics genetics vcf-variant-call-format