【发布时间】:2020-03-07 00:29:46
【问题描述】:
我正在尝试从页面中获取所有 url 链接。我正在使用这个链接
https://www.horizont.net/suche/?OK=suchen&OK=suchen&i_sortfl=pubdate&i_sortd=desc&i_q=der
此链接基于显示不同文章的搜索查询。每页大约有9篇文章。所以我想从页面中获取所有 URL 链接作为列表。
我想尝试的第二步,当页面中的所有链接都从页面中提取出来时,它会自动打开第二个页面并从那里获取所有链接。
所以,s 大约有 15194 个页面,所以我想从页面中获取文章的所有超链接。
到目前为止,我正在尝试这样做:
from BeautifulSoup import BeautifulSoup
import urllib2
import re
def getLinks(url):
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
links = []
for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
links.append(link.get('href'))
return links
print( getLinks("https://www.horizont.net/suche/?OK=suchen&OK=suchen&i_sortfl=pubdate&i_sortd=desc&i_q=der") )
我现在面临的问题是我从网站上获取每个网址,但我只需要搜索结果以及搜索结果中的下一页。
【问题讨论】:
标签: python beautifulsoup urllib2