【发布时间】:2019-08-28 15:10:59
【问题描述】:
我正在处理来自 opensecrets.org 的游说数据,尤其是行业数据。我想有一个自 90 年代以来每个行业的游说支出的时间序列。
我想自动从网络上抓取数据。数据所在的网址格式如下:
https://www.opensecrets.org/lobby/indusclient.php?id=H04&year=2019
很容易嵌入到循环中,问题是我需要的数据在网页中不是简单的格式。它在条形图中,当我检查图表时,我不知道如何获取数据,因为它不在 html 代码中。当数据在 html 代码中时,我熟悉 python 中的网络抓取,但在这种情况下,我不确定如何继续。
【问题讨论】:
-
你考虑过他们的 API:opensecrets.org/open-data/api 吗?或者也许联系他们,看看是否有任何安排?似乎他们想把数据拿出来。
-
值似乎存储在 html 中:opensecrets.org/lobby/include/…
-
@JuanImbett,如果解决方案符合您的需要,最好接受它,或者至少让人们知道您有解决方案。
标签: python web-scraping