【发布时间】:2021-12-23 19:39:30
【问题描述】:
我为我需要的 URL 抓取了维基百科页面,并将其附加到 python 中的一个空列表中。 我现在需要抓取列表中的每个 URL 以获取特定信息,例如日期、坐标等。
鉴于 HTML 代码的结构,父/子父结构,很多信息不能单独通过标签链接。或者可以吗?请参阅以下链接中的事实框:https://en.wikipedia.org/wiki/1987_Maryland_train_collision。 我的目标是抓取这些事实框,因为它们中的大多数都包含一个。
我了解您可以使用条件语句从一组数据中声明特定数据,并使用相同的 HTML 标记。但是,我不确定如何处理它。
到目前为止,我有以下内容:
list_of_urls = #my list of urls to be scraped
for i in list_of_urls:
soup = BeautifulSoup(text, features="lxml")
for item in soup.findAll('td',attrs={'class':'infobox-label'}):
if item.find('td', attrs={'class':'infobox-data'}) == "date":
print(item.find)
date_info = item.get("infobox-data")
print(date_info)
#do something more..
Any thoughts on the above?
Thank you for your time.
EDIT: Solved by applying Rusticus methods..
【问题讨论】:
标签: python list url web-scraping