【发布时间】:2020-08-30 10:23:03
【问题描述】:
我生成的序列文件如下:
>rpl-7
ATGGCTCCAAC
>rpl-7
AAGAAAGTGCCACAGGTTCCAGAAAC
>rpl-8
AAGAACAAGGAGAAGAAGACCCAATACTTCAAGCGTGC
>rpl-8
GCTCTCCAGATCCTCCGTCTTCGTCAGATCAA
>rpl-8
AAGTTCAACATCATCTGTCTTGAGGA
我想合并相同ID的序列,就这样:
>rpl-7
ATGGCTCCAAC
AAGAAAGTGCCACAGGTTCCAGAAAC
>rpl-8
AAGAACAAGGAGAAGAAGACCCAATACTTCAAGCGTGC
GCTCTCCAGATCCTCCGTCTTCGTCAGATCAA
AAGTTCAACATCATCTGTCTTGAGGA
我用python判断'>'开头的字符串是否相同,如果相同则继续增加序列。但是这个方法不能输出第一个ID。另外我觉得awk用起来会比较方便,可惜我对awk不熟悉。你知道怎么做吗?谢谢。
【问题讨论】:
-
抱歉,您能详细说明
rpl是什么吗? -
rpl是指核糖体蛋白大亚基。这点不重要,可以看作是一个独特的标签。
-
好吧,我在想
>是一些 shell 输出并感到困惑 -
你能说出它到底是什么吗?存储在列表等中的文件名或字符串
-
您可以发布您已有的代码吗?您可以将 id 的 Map 作为键,将字符串列表作为值来保存结果。
标签: python linux string dictionary parsing