【发布时间】:2016-09-30 03:00:38
【问题描述】:
我正在尝试网络抓取此网页以及此搜索的所有“下一页”
当我转到搜索的第 2 页时,我正确地提取了所有链接。
当我转到一个不存在的页面时,网站会重定向到搜索的第一页。
例如,如果我转到第 2500 页,我没有收到错误,这就是我想要的,我会返回第一页。
这是我的一段代码:
try:
html = urlopen("http://g1.globo.com/busca/?q=economia&cat=a&ss=1885518dc528dd9b&st=G1&species=not%C3%ADcias&page=110") #Search Link
bsObj = BeautifulSoup(html) #BeautifulSoup's Link
print(bsObj)
except OSError:
print("test")
我的目标是清除所有可用页面并在此之后停止代码。为此,首先,我需要了解发生了什么。
谢谢
【问题讨论】:
标签: python-3.x web-scraping beautifulsoup