【发布时间】:2019-12-10 10:27:42
【问题描述】:
我正在尝试从以下位置抓取数据表:https://www.pjm.com/planning/services-requests/interconnection-queues.aspx
我希望自动执行此数据提取,而不必每天手动下载 xls 文件。我查看了他们的文档,除了执行抓取之外,没有简单的方法可以实现自动化。查看页面源,看起来这些数据存储在“nggrid”表中。具体来说,数据在.
我使用 beautifulsoup 在 python 中创建了一个基线查询,以查看初始输出是什么。
这是我的初始代码:
from bs4 import BeautifulSoup
import requests
page_link = 'https://www.pjm.com/planning/services-requests/interconnection-queues.aspx'
page_response = requests.get(page_link, timeout=5)
page_content = BeautifulSoup(page_response.content, "html.parser")
在 page_content 中存储的数据拉取中,没有向我提供与页面源相同的信息。在我期望的地方及其各种子信息中,我提供了以下打开和关闭的标签,中间没有数据:
<pjm-nggrid></pjm-nggrid>
有人知道如何访问 nggrid 中的数据吗?
【问题讨论】:
标签: javascript python html web-scraping beautifulsoup