【发布时间】:2018-01-09 23:43:01
【问题描述】:
我正在尝试从包含许多嵌入的重复行集中提取信息。对于页面,我正在尝试编写一个刮板以从this 页面获取各种元素。出于某种原因,我找不到使用包含每行信息的类的标记的方法。此外,我无法隔离提取信息所需的部分。作为参考,这里是一行的示例:
<div id="dTeamEventResults" class="col-md-12 team-event-results"><div>
<div class="row team-event-result team-result">
<div class="col-md-12 main-info">
<div class="row">
<div class="col-md-7 event-name">
<dl>
<dt>Team Number:</dt>
<dd><a href="/team-event-search/team?program=JFLL&year=2017&number=11733" class="result-name">11733</a></dd>
<dt>Team:</dt>
<dd> Aqua Duckies</dd>
<dt>Program:</dt>
<dd>FIRST LEGO League Jr.</dd>
</dl>
</div>
我开始构建的脚本如下所示:
from urllib2 import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url = 'https://www.firstinspires.org/team-event-search#type=teams&sort=name&keyword=NJ&programs=FLLJR,FLL,FTC,FRC&year=2017'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
rows = page_soup.findAll("div", {"class":"row team-event-result team-result"})
每当我运行 len(rows) 时,结果总是 0。我似乎碰壁了,遇到了麻烦。感谢您的帮助!
【问题讨论】:
标签: python html web-scraping beautifulsoup