【发布时间】:2023-03-10 09:48:01
【问题描述】:
从任何 *.fasta DNA 序列(仅“ACTG”字符)中,我必须找到每个字母至少重复一次的所有序列。
例如,从序列“AAGTCCTAG”中,我应该能够找到:“AAGTC”、“AGTC”、“GTCCTA”、“TCCTAG”、“CCTAG”和“CTAG”(每个字母的迭代)。
我不知道如何在 pyhton 2.7 中做到这一点。我正在尝试使用正则表达式,但它并未搜索所有变体。
我怎样才能做到这一点?
【问题讨论】:
-
嗨!您能否包括您尝试失败的代码,并重新格式化您的问题以更明确地说明输入、预期输出和方法?这将使我们更容易提供帮助:)
-
正则表达式可能不是这里的方式。
-
re.findall(r'(A+?C+?T+?G+?)',seqs)输入是this 我必须在 DNA 序列中搜索“单词”,并且每个单词中必须至少包含一个 A、C、T ang G。当所有这些字母都在其中时,单词“结束”。我知道的就这些 -
即使你使用正则表达式,你也需要重叠。
标签: python regex repeat dna-sequence