使用 Entrez 解析来自 PubMed 的出版物数据的问题答案

【问题标题】：Issue with parsing publication data from PubMed with Entrez使用 Entrez 解析来自 PubMed 的出版物数据的问题
【发布时间】：2016-12-22 15:42:45
【问题描述】：

我正在尝试使用 Entrez 将发布数据导入数据库。搜索部分工作正常，但是当我尝试解析时：

from Bio import Entrez

def create_publication(pmid):

    handle = Entrez.efetch("pubmed", id=pmid, retmode="xml")
    records = Entrez.parse(handle)
    item_data = records.next()
    handle.close()

...我收到以下错误：

文件 “/venv/lib/python2.7/site-packages/Bio/Entrez/Parser.py”，第 296 行，解析中 raise ValueError("XML 文件不代表一个列表。请使用 Entrez.read 而不是 Entrez.parse") ValueError: XML 文件不代表列表。请使用 Entrez.read 而不是 Entrez.parse

这段代码在几天前还可以使用。有什么想法可能出了什么问题吗？

此外，查看源代码 (http://biopython.org/DIST/docs/api/Bio.Entrez-pysrc.html) 并尝试按照列出的示例进行操作，会出现相同的错误：

from Bio import Entrez 
Entrez.email = "Your.Name.Here@example.org"
handle = Entrez.efetch("pubmed", id="19304878,14630660", retmode="xml")    
records = Entrez.parse(handle) 
for record in records: 
    print(record['MedlineCitation']['Article']['ArticleTitle']) 
handle.close()

【问题讨论】：

愚蠢的问题，但是你有没有试过使用Entrez.read()，然后解析结果？
read() 主要工作，但围绕它还有一大堆其他代码。因此，当我尝试时，我只是不断收到不同的错误。所以要么对 parse() 有一个简单的修复，要么我需要重写其余部分。
如果它让您感觉好些，我在您发布的第二段代码中遇到了同样的错误。 records 是一个生成器对象，但我似乎看不懂它，所以我不确定它包含什么...
看起来像biopython devs are aware
@apiljic GitHub Issue 现已关闭，仅供参考

标签： python bioinformatics biopython pubmed

【解决方案1】：

如其他 cmets 和 GitHub Issue 中所述，该问题是由 NCBI Entrez Utilities Developers 故意更改引起的。正如 Jhird 在此问题中所述，您可以将代码更改为以下内容：

from Bio import Entrez 
Entrez.email = "Your.Name.Here@example.org"
handle = Entrez.efetch("pubmed", id="19304878,14630660", retmode="xml")  

records = Entrez.read(handle)      # Difference here
records = records['PubmedArticle'] # New line here  

for record in records: 
    print(record['MedlineCitation']['Article']['ArticleTitle']) 
handle.close()

【讨论】：