【发布时间】:2015-04-10 22:45:02
【问题描述】:
嗯,我有一个 FASTA 文件,其中包含有关 .txt 中蛋白质的一些信息,我想搜索模式之后的“字符串”并将其导入/写入另一个文本。它是这样的:
>gi|1168222|sp|P46098.1|
....(text)...
>gi|74705987|sp|O95264.1|
....(text)...
我想获取所有入藏号(acc):sp|**P46098**.1|,然后将它们保存在另一个文件的列中。整个文本中有不同的 acc,我想要的是 sp| 之后和 . 之前的内容,或者如果它没有 . 是下一个 | 之前的内容。
在 Biopython 中是否有任何简单的方法可以做到这一点?
谢谢
【问题讨论】:
-
总是以P开头吗?还是 O 也这么认为?它总是以大写字母开头,后跟整数还是浮点数(在 O 的情况下,它看起来像浮点数)?如果有的话,这里的大多数人已经好几年没有做过生物信息学了
-
@Joran 登录 ID 可能会有很大差异。
sp是 SwissProt 登录 ID,这是我认为 OP 想要的。一般来说,.之后的数字是修订版,所以我猜他/她想要sp|之后的所有内容到第一个.。这纯粹是猜测,Biopython 有更简单的方法。 -
还有一件事——这些信息只会出现在以
>开头的一行上。 -
啊,我纠正了一个人对生物信息学的了解很多:P
-
是的,我实际上是生物技术研发领域的科学家。我只是业余时间的书呆子:)