【发布时间】:2018-10-30 19:43:05
【问题描述】:
我正在尝试拼凑 DNA 短片段。我需要将大约 3 个碱基对与其他短读片段匹配。 (碱基对= ex. TCG(基本上只有 3 个字母))
我尝试过正则表达式,但是当我尝试读取包含一堆短读的文件时,我需要将核苷酸设为变量,我认为正则表达式不会这样做。我有一个包含一堆这些短读取的文件,我需要将这些碱基对与具有这些相同碱基对序列的其他短读取进行匹配。
例如。我在一个文件中有这两行简短的读取:
AAAGGGTTTCCCGGGAAATCA
CCCGGGAAATCAGGGAAATTT
我需要的结果是:
AAAGGGTTTCCCGGGAAATCAGGGAAATTT
如何匹配匹配的行并将其粘贴到其他行的顶部,以便在相似点将它们组合起来?
【问题讨论】:
-
5个左右是多少?
-
嗨,Alpa,您的描述很简短,您还没有告诉我们您尝试了什么。甚至很难说出你想要做什么。我能说的最好的是,您正在尝试将短读对齐以形成更长的读。这不是我建议你手动做的事情,并且是一个正在进行的研究领域,以寻找最好的方法。我建议您查看社区中可用的工具来完成任务。
-
假设您确实在处理 DNA 数据,有很多非常专业的工具可以做到这一点(并允许误读)。尝试bioinformatics.stackexchange.com 或搜索“序列组装”
标签: python python-3.x matching short