【发布时间】:2014-12-27 23:14:57
【问题描述】:
如果基因名称存储在文本文件中,我如何使用 biopython 从 fasta 文件中截取我感兴趣的基因?
#extract genes
f1 = open('ortholog1.txt','r')
f2 = open('all.fasta','r')
f3 = open('ortholog1.fasta','w')
genes = [line.rstrip('\n') for line in f1.readlines()]
i=0
for seq_record in SeqIO.parse(f2, "fasta"):
if genes[i] == seq_record.id:
print genes[i]
f3.write('>'+genes[i])
i=i+1
if i==18:
break
f3.write('\n')
f3.write(str(seq_record.seq))
f3.write('\n')
f2.close()
f3.close()
我正在尝试上面的代码。但是它有一些错误并且不是通用的,因为像ortholog1.txt(包含基因名称)还有5个类似的文件。每个文件中的基因数量也各不相同(不是像这里那样总是 18 个)。这里all.fasta 是包含所有基因的文件。 ortholog1.fasta 必须包含剪断的核苷酸序列。
【问题讨论】:
标签: python bioinformatics biopython