【问题标题】:Issue with parsing publication data from PubMed with Entrez使用 Entrez 解析来自 PubMed 的出版物数据的问题
【发布时间】:2016-12-22 15:42:45
【问题描述】:

我正在尝试使用 Entrez 将发布数据导入数据库。搜索部分工作正常,但是当我尝试解析时:

from Bio import Entrez

def create_publication(pmid):

    handle = Entrez.efetch("pubmed", id=pmid, retmode="xml")
    records = Entrez.parse(handle)
    item_data = records.next()
    handle.close()

...我收到以下错误:

文件 “/venv/lib/python2.7/site-packages/Bio/Entrez/Parser.py”, 第 296 行,解析中 raise ValueError("XML 文件不代表一个列表。请使用 Entrez.read 而不是 Entrez.parse") ValueError: XML 文件 不代表列表。请使用 Entrez.read 而不是 Entrez.parse

这段代码在几天前还可以使用。有什么想法可能出了什么问题吗?

此外,查看源代码 (http://biopython.org/DIST/docs/api/Bio.Entrez-pysrc.html) 并尝试按照列出的示例进行操作,会出现相同的错误:

from Bio import Entrez 
Entrez.email = "Your.Name.Here@example.org"
handle = Entrez.efetch("pubmed", id="19304878,14630660", retmode="xml")    
records = Entrez.parse(handle) 
for record in records: 
    print(record['MedlineCitation']['Article']['ArticleTitle']) 
handle.close()

【问题讨论】:

  • 愚蠢的问题,但是你有没有试过使用Entrez.read(),然后解析结果?
  • read() 主要工作,但围绕它还有一大堆其他代码。因此,当我尝试时,我只是不断收到不同的错误。所以要么对 parse() 有一个简单的修复,要么我需要重写其余部分。
  • 如果它让您感觉好些,我在您发布的第二段代码中遇到了同样的错误。 records 是一个生成器对象,但我似乎看不懂它,所以我不确定它包含什么...
  • @apiljic GitHub Issue 现已关闭,仅供参考

标签: python bioinformatics biopython pubmed


【解决方案1】:

如其他 cmets 和 GitHub Issue 中所述,该问题是由 NCBI Entrez Utilities Developers 故意更改引起的。正如 Jhird 在此问题中所述,您可以将代码更改为以下内容:

from Bio import Entrez 
Entrez.email = "Your.Name.Here@example.org"
handle = Entrez.efetch("pubmed", id="19304878,14630660", retmode="xml")  

records = Entrez.read(handle)      # Difference here
records = records['PubmedArticle'] # New line here  

for record in records: 
    print(record['MedlineCitation']['Article']['ArticleTitle']) 
handle.close()

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-27
    • 1970-01-01
    • 1970-01-01
    • 2018-03-27
    相关资源
    最近更新 更多