【发布时间】:2020-02-25 17:07:59
【问题描述】:
我正在尝试抓取美国证券交易委员会的报告页面,以获取有关一些股票代码的一些基本信息。
这是 Apple 的示例 URL - https://sec.report/CIK/0000320193
页面内有一个“公司详细信息”表,其中包含基本信息。我基本上只是想抓取 IRS 号码、公司所在州和地址。
我很酷,只是刮下这张图表并将其保存到 PD Df 中。我对网络抓取非常陌生,因此正在寻找一些技巧来完成这项工作!下面是我的代码,但是一旦我提取面板主体,我不知道该去哪里。谢谢大家!
session = requests.Session()
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36'}
page = requests.get('https://sec.report/CIK/0000051143.html', headers = headers)
page.content
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')
soup.find_all(class_='panel-body')
【问题讨论】:
-
提取面板主体后,我不知道该去哪里。这非常模糊,你能更具体吗?
标签: python web web-scraping beautifulsoup scrape