【发布时间】:2021-12-26 04:16:46
【问题描述】:
我有一个如下所示的文件:
chr4 StringTie exon 185054979 185055237 1000 + . gene_id `"MSTRG.41311"; transcript_id "ENST00000658673.1"; exon_number "2"; gene_name `"LINC02436"; ref_gene_id "ENSG00000250754.6";
chr4 StringTie exon 185069961 185070030 1000 + . gene_id `"MSTRG.41311"; transcript_id "ENST00000658673.1"; exon_number "3"; gene_name "LINC02436"; ref_gene_id "ENSG00000250754.6";
chr6 HAVANA exon 169067764 169068299 . + . gene_id "ENSG00000234519.2"; transcript_id "ENST00000666733.1"; exon_number "1"; gene_name "RP3-495K2.1";
我只想保留基因 id 信息,因此文件将如下所示:
MSTRG.41311
MSTRG.41311
ENSG00000234519.2
我尝试了以下方法:
cat file.gtf|sed 's/!ENSG*//g'|sed 's/!ENSG*//g' > myfile.txt.
但这并没有给我想要的输出。我认为这是因为引号是一个特殊字符,但我不确定。 有人可以帮忙解决这个问题吗?
谢谢!
【问题讨论】: