【发布时间】:2017-09-30 21:12:45
【问题描述】:
我有一个基因库文件 .gbk,我想从中提取某些基因。我的问题如下: 为了处理文件,每个基因座的标题必须采用特定格式,并且不在我的文件中。我想解析文件并替换标题如下:
LOCUS NODE_1_length_393688_cov_17.8554393688 bp DNA linear
BCT22-MAY-2017
DEFINITION Escherichia coli strain strain.
ACCESSION
VERSION
KEYWORDS .
SOURCE Escherichia coli
ORGANISM Escherichia coli
Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae;
Escherichia.
....
>>Gene data here
....
LOCUS NODE_2_length_278889_cov_17.85545278889 bp DNA linear
BCT22-MAY-2017
DEFINITION Escherichia coli strain strain.
ACCESSION
VERSION
KEYWORDS .
SOURCE Escherichia coli
ORGANISM Escherichia coli
Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae;
Escherichia.
....
>>Gene data here
....
LOCUS NODE_3_length_340008_cov_17.855432340008 bp DNA linear
BCT22-MAY-2017
DEFINITION Escherichia coli strain strain.
ACCESSION
VERSION
KEYWORDS .
SOURCE Escherichia coli
ORGANISM Escherichia coli
Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae;
Escherichia.
....
>>Gene data here
....
以NODE 开头的字符串对于文件格式约定来说太长了,需要替换,所以它看起来像这样:
LOCUS NODE_1_393688 bp DNA linear
....
LOCUS NODE_2_278889 bp DNA linear
....
LOCUS NODE_3_340008 bp DNA linear
需要剪掉的部分不必具有相同的长度,因此移除字符串某些位置之间的所有内容的固定方法是不可行的。我使用 re.compile() 和 r.sub() 尝试了不同的方法,但到目前为止还没有成功。
任何帮助将不胜感激。 感谢您的宝贵时间!
【问题讨论】:
标签: python bioinformatics