【发布时间】:2022-01-22 18:27:08
【问题描述】:
我尝试从这样的 xml 文件中提取 pmid、nct_id 和发布类型。四个样本文件是here,一个有NCT_ID。
<PMID Version="1">144418</PMID>
<PublicationType UI="D016428">Journal Article</PublicationType>
<AccessionNumber>NCT03070782</AccessionNumber>
理想情况下,我想要一个 pd 数据框:
预期输出:
PMID Publication_type NCTID
1 Journal article NCT03070782
2 Journal article NaN
3 Journal article NaN
但如果有人至少可以告诉如何提取 1 个文件,我也将不胜感激!我会弄清楚如何将其放入数据框中。
【问题讨论】:
-
可以使用beautifulsoup4解析xml文件。
标签: python pandas xml web-scraping