【发布时间】:2017-08-25 11:01:14
【问题描述】:
我是网络爬虫的新手,现在我尝试理解它,以便与朋友进行关于德甲联赛的投注竞赛。 (我们使用的平台是kicktipp.de)。我已经设法登录到该网站并使用 python 发布足球结果。不幸的是,到目前为止,这些只是泊松分布的随机数。为了改进这一点,我的想法是从bwin 下载赔率。更准确地说,我尝试下载确切结果的赔率。问题从这里开始。到目前为止,我无法用 BeautifulSoup 提取那些。使用 google chrome 我试图了解我需要的 html 代码的哪一部分。但由于某些原因,我无法使用 BeautifulSoup 找到这些部分。 我现在的代码确实是这样的:
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url = "https://sports.bwin.com/de/sports/4/wetten/fußball#categoryIds=192&eventId=&leagueIds=43&marketGroupId=&page=0&sportId=4&templateIds=0.8649061927316986"
# opening up connection, grabbing the page
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
# html parsing
page_soup = soup(page_html, "html.parser")
containers1 = page_soup.findAll("div", {"class": "marketboard-event-
group__item--sub-group"})
print(len(containers1))
containers2 = page_soup.findAll("table", {"class": "marketboard-event-with-
header__markets-list"})
print(len(containers2))
从我已经看到的容器的长度来看,它们要么包含比我预期的更多的物品,要么由于未知原因它们是空的......希望你能指导我。提前致谢!
【问题讨论】:
-
当您打印出
page_soup.prettify()时,它是否像您期望的那样显示所有表格?另外,您是否考虑过使用 requests 而不是 urllib.request?
标签: python web-scraping beautifulsoup