使用 python 代码从 IEEEXplore 网站提取 DOI答案

【问题标题】：Extract DOI from IEEEXplore website using python code使用 python 代码从 IEEEXplore 网站提取 DOI
【发布时间】：2019-02-09 00:17:03
【问题描述】：

无法从网页中提取字段数据，这不是常见的网页抓取问题。它也与 javascript 相关联。我也尝试过使用 python-requests，但无法解决问题。

我正在尝试从网页中提取 doi。 doi 位于 javascript 中。我能够阅读该页面，并且代码可以运行到 {print(soup)}。当我试图提取 doi 值时（在给定的代码中，对于示例网页，doi 如下：“doi”：“10.1109/LAWP.2014.2364296”）我想打印“10.1109/LAWP.2014.2364296”，即从网页中提取。

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

使用网页“https://ieeexplore.ieee.org/document/6933872”时，输出为 10.1109/LAWP.2014.2364296。怎么办？

【问题讨论】：

查看html.python-requests.org它有完整的javascript支持
Web-scraping JavaScript page with Python的可能重复
我通过 [链接](stackoverflow.com/questions/8049520/…) 但它不同。每篇论文的doi都不同，只提取那个值
我会检查 html.python-requests.org
执行 r.html.render() 行时，会产生错误。还有什么办法吗？

标签： python extract ieee doi

【解决方案1】：

跳过 Javascript Web 抓取问题的可能解决方案是使用 IEEE API (https://developer.ieee.org/)。虽然他们确实需要注册和批准才能获得 API 密钥，但一旦您拥有它，发送一堆 IEEE 文章编号并以结构化方式取回他们的 DOI 和其他元数据会容易得多。

【讨论】：