【发布时间】:2018-01-14 07:04:57
【问题描述】:
假设我的长序列看起来像:
5’-AGGGTTTCCC**TGACCT**TCACTGC**AGGTCA**TGCA-3
这个长序列中的两个斜体子序列(这里是两个星号)一起称为反向重复模式。这两个子序列中四个字母(如 A、T、G、C)的长度和组合会有所不同。但这两个子序列之间存在关系。请注意,当您考虑第一个子序列时,它的互补子序列是 ACTGGA(根据 A 与 T 结合,G 与 C 结合),当您反转此互补子序列(即最后一个字母在前)时,它与第二个子序列匹配。
FASTA 序列中存在大量此类模式(包含 1000 万个 ATGC 字母),我想找到此类模式及其开始和结束位置。
【问题讨论】:
-
有长度限制吗?这看起来像是一项计算量非常大的任务。
-
1) 反向重复多长时间(至少)? 2) 他们可以相距多远(最大)?
-
总是两个子序列可以形成一个反向重复单元。假设它们相隔 100 个碱基。