【发布时间】:2025-11-24 18:40:01
【问题描述】:
处理纯文本序列文件(大多数情况下是fasta 序列)效率不高。我真的很想处理 python 对象(str 左右)而不是 fasta 文件。我需要的只是:
>>> s1 = Seq('atgctttccg....act')
>>> s2 = Seq( 'tactttccg....tat')
>>> result = align(s1, s2, scoring_matrix)
>>> result.identity, result.score, result.expect
(79.37, 1086, 9e-105)
>>> result.alignment
('atgctttccg....act--','-tactttccg....tat')
因此,我还可以避免重复解析输出文件,这很无聊、耗时且容易出错。我不指望高性能。我打算编写一个实现 Smith-Waterman 算法的 python 扩展,但想知道: 1. 有我需要的现有模块吗? 2. 对于 Smith-Waterman 对齐实现的常见优化,有什么推荐的读物吗?
任何建议表示赞赏。
【问题讨论】:
标签: python alignment bioinformatics