【发布时间】:2016-07-11 07:59:43
【问题描述】:
scikit-bio 是否可以从基因组 fasta 文件中提取存储在 gff3 格式文件中的基因组特征?
例子:
基因组.fasta
>sequence1
ATGGAGAGAGAGAGAGAGAGGGGGCAGCATACGCATCGACATACGACATACATCAGATACGACATACTACTACTATGA
annotation.gff3
#gff-version 3
sequence1 source gene 1 78 . + . ID=gene1
sequence1 source mRNA 1 78 . + . ID=transcript1;parent=gene1
sequence1 source CDS 1 6 . + 0 ID=CDS1;parent=transcript1
sequence1 source CDS 73 78 . + 0 ID=CDS2;parent=transcript1
mRNA 特征 (transcript1) 的所需序列将是两个子 CDS 特征的串联。所以在这种情况下,这将是'ATGGAGCTATGA'。
【问题讨论】:
-
从 scikit-bio 0.5.0 开始,不支持读取 gff3 文件。如果这是您希望添加到项目中的功能,请考虑在问题跟踪器上提交功能请求:github.com/biocore/scikit-bio/issues
标签: python python-3.x bioinformatics skbio