【发布时间】:2021-06-01 17:51:07
【问题描述】:
我正在尝试在 R 中解析这个 .txt 文件:https://ftp.expasy.org/databases/cellosaurus/cellosaurus.txt
它本质上是一个大约 200 万行的单列数据框,每个实体由多行描述,并由包含字符串“//”的行记录。
理想情况下,我可以通过在“//”处拆分来捕获由多行组成的每个实体作为列表元素,但我不确定最有效的方法。
非常感谢任何帮助。
编辑:
这是我正在使用的东西的 sn-p:
[87] "//"
[88] "ID #40a"
[89] "AC CVCL_IW91"
[90] "DR Wikidata; Q54422071"
[91] "RX PubMed=28159921;"
[92] "CC Characteristics: Established from parent cell line after two passages in the peritoneal cavity of C57BL/6 mice (PubMed=28159921)."
[93] "CC Transformant: ChEBI; CHEBI:46666; Crocidolite asbestos."
[94] "CC Derived from metastatic site: Peritoneum."
[95] "CC Breed/subspecies: C57BL/6."
[96] "DI NCIt; C21619; Mouse mesothelioma"
[97] "OX NCBI_TaxID=10090; ! Mus musculus"
[98] "HI CVCL_IW90 ! 40"
[99] "SX Male"
[100] "AG 1-2M"
[101] "CA Cancer cell line"
[102] "DT Created: 15-05-17; Last updated: 02-07-20; Version: 3"
[103] "//"
[104] "ID #490"
[105] "AC CVCL_B375"
[106] "SY 490; Mab 7; Mab7"
[107] "DR CLO; CLO_0001018"
[108] "DR ATCC; HB-12029"
[109] "DR Wikidata; Q54422073"
[110] "RX Patent=US5616470;"
[111] "CC Monoclonal antibody isotype: IgM, kappa."
[112] "CC Monoclonal antibody target: Cronartium ribicola antigens."
[113] "OX NCBI_TaxID=10090; ! Mus musculus"
[114] "HI CVCL_4032 ! P3X63Ag8.653"
[115] "CA Hybridoma"
[116] "DT Created: 06-06-12; Last updated: 12-03-20; Version: 6"
[117] "//"
[118] "ID #822"
[119] "AC CVCL_X345"
[120] "SY 822; Mab 13; Mab13"
[121] "DR ATCC; HB-12030"
[122] "DR Wikidata; Q54422076"
[123] "RX Patent=US5616470;"
[124] "CC Monoclonal antibody isotype: IgM, kappa."
[125] "CC Monoclonal antibody target: Cronartium ribicola antigens."
[126] "OX NCBI_TaxID=10090; ! Mus musculus"
[127] "HI CVCL_4032 ! P3X63Ag8.653"
[128] "CA Hybridoma"
[129] "DT Created: 17-07-14; Last updated: 12-03-20; Version: 5"
[130] "//"
作为补充说明,我的目标是搜索给定的加入 (AC),例如CVCL_X345,然后提取该种质的年龄 (AG) 和性别 (SX)(如果可用)。
【问题讨论】:
-
也许您应该向我们提供几行这些数据。 ]frame,这样我们就可以理解这个模式。
-
完成 -- 感谢您的建议。
-
您的 PC 中有文件还是直接从网站上阅读?
-
我在本地保存了一个正在读取的文件。
-
抱歉,打开了另一个带有 python 标记的问题。