【问题标题】:how to write in python without using Biopython package如何在不使用 Biopython 包的情况下用 python 编写
【发布时间】:2015-10-14 19:41:27
【问题描述】:

​我愿意编写一个程序,将“Region”类型的特征对应的氨基酸序列提取为单独的Fasta文件,并列出site_type =“phosphorylation”的“Site”的氨基酸和位置。

不使用 Biopython 包。

(我有 biopython code 已经做了同样的事情)

文件在下面。

LOCUS NP_005219 1210 aa 线性 PRI 15-MAR-2015 定义表皮生长因子受体亚型前体[Homo 智人]。 访问 NP_005219 版本 NP_005219.2 GI:29725609 DBSOURCE REFSEQ:加入 NM_005228.3 关键词 RefSeq。 特点 地点/资格赛 来源 1..1210 /organism="智人" /db_xref="分类:9606" /染色体=“7” /map="7p12" 蛋白质 1..1210 /product="表皮生长因子受体亚型a 前体" /EC_number="2.7.10.1" /note="禽红细胞白血病病毒 (v-erb-b) 癌基因同源物;细胞增殖诱导蛋白61; 细胞生长抑制蛋白40;原癌基因 c-ErbB-1;受体酪氨酸蛋白激酶erbB-1" sig_peptide 1..24 /inference="坐标:从头算预测:SignalP:4.0" /calculated_mol_wt=2283 mat_peptide 25..1210 /product="表皮生长因子受体亚型a" /calculated_mol_wt=132013 地区 57..168 /region_name="Recep_L_domain" /note="受体 L 域;pfam01030" /db_xref="CDD:250307" 地区 75..300 /region_name="近似值" /experiment="实验证据,无额外细节 记录” /note="从 UniProtKB/Swiss-Prot (P00533.2) 传播" 地区 185..337 /region_name="风铃状" /note="弗林样半胱氨酸富集区;pfam00757" /db_xref="CDD:250112" 站点 229 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:21487020}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 地区 231..274 /region_name="FU" /note="弗林样重复。富含半胱氨酸的区域。准确 域的功能未知。弗林是一种 丝氨酸激酶依赖性前蛋白处理器。其他 这个家族的成员包括内切蛋白酶和细胞 表面受体; cd00064" /db_xref="CDD:238021" 区域 361..481 /region_name="Recep_L_domain" /note="受体 L 域;pfam01030" /db_xref="CDD:250307" 地区 390..600 /region_name="近似值" /experiment="实验证据,无额外细节 记录” /note="从 UniProtKB/Swiss-Prot (P00533.2) 传播" 地区 505..637 /region_name="GF_recep_IV" /note="生长因子受体结构域 IV;pfam14843" /db_xref="CDD:258980" 地区 506..559 /region_name="FU" /note="弗林样重复。富含半胱氨酸的区域。准确 域的功能未知。弗林是一种 丝氨酸激酶依赖性前蛋白处理器。其他 这个家族的成员包括内切蛋白酶和细胞 表面受体; cd00064" /db_xref="CDD:238021" 区域 558..>598 /region_name="FU" /note="弗林样重复。富含半胱氨酸的区域。准确 域的功能未知。弗林是一种 丝氨酸激酶依赖性前蛋白处理器。其他 这个家族的成员包括内切蛋白酶和细胞 表面受体; cd00064" /db_xref="CDD:238021" 区域 634..677 /region_name="TM_ErbB1" /note="表皮生长因子跨膜结构域 受体或 ErbB1,一种蛋白质酪氨酸激酶; cd12093" /db_xref="CDD:213054" 网站订单(644..646,648..653,656..657) /site_type="其他" /note="异二聚体界面[多肽结合]" /db_xref="CDD:213054" 站点 646..668 /site_type="跨膜区" /experiment="实验证据,无额外细节 记录” /note="从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 678 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸苏氨酸,PKC 和 PKD/PRKD1。 {ECO:0000269|PubMed:10523301};传播自 UniProtKB/Swiss-Prot (P00533.2)" 地区 688..704 /region_name="对二聚化、磷酸化很重要 和激活” /experiment="实验证据,无额外细节 记录” /note="从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 693 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸苏氨酸,PKD/PRKD1。 {ECO:0000269|PubMed:10523301, ECO:0000269|PubMed:16083266, ECO:0000269|PubMed:18691976, ECO:0000269|PubMed:20068231, 生态:0000269|PubMed:3138233};传播自 UniProtKB/Swiss-Prot (P00533.2)" 站点 695 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:18691976, 生态:0000269|PubMed:3138233};传播自 UniProtKB/Swiss-Prot (P00533.2)" 区域 704..1016 /region_name="PTKc_EGFR" /note="蛋白酪氨酸激酶的催化结构域, 表皮生长因子受体; cd05108" /db_xref="CDD:270683" 地区 712..968 /region_name="Pkinase_Tyr" /note="蛋白酪氨酸激酶;pfam07714" /db_xref="CDD:254379" 网站订单(715..717,728..730,794..795,797,804..805,1009..1010) /site_type="其他" /note="二聚体界面[多肽结合]" /db_xref="CDD:270683" 网站订单(718..719,722..723,745,791,793,797,841..842,855, 876..880,885,889) /site_type="活动" /db_xref="CDD:270683" 网站订单(718..719,726,743,745,766,790..791,793,841..842,844, 第855章) /site_type="其他" /note="ATP 结合位点 [化学结合]" /db_xref="CDD:270683" 站点 854..879 /site_type="其他" /note="激活循环 (A-loop)" /db_xref="CDD:270683" 网站订单(876..880,885,889) /site_type="其他" /note="多肽底物结合位点[多肽 捆绑]” /db_xref="CDD:270683" 站点 991 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:16083266, ECO:0000269|PubMed:18669648, ECO:0000269|PubMed:20068231}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 995 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:18669648}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 998 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸酪氨酸,通过自催化。 {ECO:0000269|PubMed:18669648, 生态:0000269|PubMed:19563760};传播自 UniProtKB/Swiss-Prot (P00533.2)" 站点 1016 /site_type="其他" /experiment="实验证据,无额外细节 记录” /note="与 PIK3C2B 交互重要;已传播 来自 UniProtKB/Swiss-Prot (P00533.2)" 站点 1016 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸酪氨酸,通过自催化。 {ECO:0000269|PubMed:19563760};传播自 UniProtKB/Swiss-Prot (P00533.2)" 站点 1026 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:16083266}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1039 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:18669648}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1041 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸苏氨酸。{ECO:0000269|PubMed:18669648}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1042 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:18669648}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1064 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:18669648, ECO:0000269|PubMed:18691976, ECO:0000269|PubMed:20068231}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1069 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸酪氨酸。{ECO:0000305|PubMed:22888118}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1070 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:3138233}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1071 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:3138233}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1081 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:18691976}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1092 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸酪氨酸,通过自催化。 {ECO:0000269|PubMed:12873986};传播自 UniProtKB/Swiss-Prot (P00533.2)" 站点 1110 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸酪氨酸,通过自催化。 {ECO:0000269|PubMed:12873986, ECO:0000269|PubMed:2543678}; 从 UniProtKB/Swiss-Prot (P00533.2) 传播" 站点 1166 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸丝氨酸。{ECO:0000269|PubMed:18669648, 生态:0000269|PubMed:18691976};传播自 UniProtKB/Swiss-Prot (P00533.2)" 站点 1172 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸酪氨酸,通过自催化。 {ECO:0000269|PubMed:17081983};传播自 UniProtKB/Swiss-Prot (P00533.2)" 站点 1197 /site_type="磷酸化" /experiment="实验证据,无额外细节 记录” /note="磷酸酪氨酸,通过自催化。 {ECO:0000269|PubMed:17081983, ECO:0000269|PubMed:18691976, ECO:0000269|PubMed:19563760, ECO:0000269|PubMed:19836242, 生态:0000269|PubMed:20068231};传播自 UniProtKB/Swiss-Prot (P00533.2)" 站点 1199 /site_type="甲基化" /experiment="实验证据,无额外细节 记录” /note="Omega-N-甲基精氨酸。 {ECO:0000269|PubMed:21258366};传播自 UniProtKB/Swiss-Prot (P00533.2)" CDS 1..1210 /基因="EGFR" /gene_synonym="ERBB;ERBB1;HER1;mENA;NISBD2;PIG61" /coded_by="NM_005228.3:247..3879" /note="isoform 前体由转录本编码 变体 1" /db_xref="CCDS:CCDS5514.1" /db_xref="基因ID:1956" /db_xref="HGNC:HGNC:3236" /db_xref="MIM:131550" 起源 1 mrpsgtagaa llallaalcp asraleekkv cqgtsnkltq lgtfedhfls lqrmfnncev 61 vlgnleityv qrnydlsflk tiqevagyvl ialntverip lenlqiirgn myyensyala 第121章 181 qnhlgscqkc dpscpngscw gageencqkl tkiicaqqcs grcrgkspsd cchnqcaagc 241 tgpresdclv crkfrdeatc kdtcpplmly npttyqmdvn pegkysfgat cvkkcprnyv 第301章 第361章 第421章 第481章 第541章 第601章 第661章 第721章 第781章 第841章 901 gvtvwelmtf gskpydgipa seissilekg erlpqppict idvymimvkc wmidadsrpk 第961章 第1021章 第1081章 第1141章 第1201章 //

【问题讨论】:

  • 您有问题吗?如果是这样,您的问题是什么?
  • @Robᵩ 我很空白,我不知道该做什么以及如何使用.. 给我一些想法或程序流程。 (搜索字符串,匹配,将其存储到文件中)
  • 欢迎来到 StackOverflow。请阅读并遵循stackoverflow.com/help/mcvestackoverflow.com/help/on-topicstackoverflow.com/help/dont-ask 中的发布指南。这不是设计或编码服务。您没有向我们描述您要解决的问题:您使用了几个未定义的术语。您没有显示任何给您带来麻烦的代码。在您提供足够的信息以适当地减少、重现和解释问题之前,我们无法提供帮助。
  • @Prune 添加了文件。请检查。
  • 没有BioPython,就是简单的文本解析。您将使用模式匹配(可能使用正则表达式)来识别适当的特征,然后使用更多模式匹配来查找序列的开始和结束。它没有什么棘手的,只是一步一步地做每个功能是乏味和无聊的。由于您要求跳过简单、有效的方法来执行此操作,而是使用无聊、无意识的方法,因此您不太可能对这个问题产生太大兴趣。如果您有兴趣学习如何做,请查看 biopython genbank 解析器的源代码。

标签: python biopython


【解决方案1】:

我推荐使用biopython

from Bio import SeqIO
file = "file.gb"
#gb = next(SeqIO.parse(open(file), "genbank")) in python 3
gb = SeqIO.parse(open(file), "gb").next()
phosphorylation_list = [f for f in gb.features if f.type=="Site" and 
                       "phosphorylation" in f.qualifiers['site_type']]

for f in phosphorylation_list:
    print((int(f.location.start), int(f.location.end)))

你明白了,

(228, 229) (677, 678) (692, 693) (694, 695) (990, 991) (994, 995) (997, 998) (1015, 1016) (1025, 1026) (1038, 1039) (1040, 1041) (1041, 1042) (1063, 1064) (1068, 1069) (1069, 1070) (1070, 1071) (1080, 1081) (1091, 1092) (1109, 1110) (1165, 1166) (1171, 1172) (1196, 1197)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-06-23
    • 2019-05-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多