【发布时间】:2020-09-07 19:28:27
【问题描述】:
我正在尝试获取多个网站的“联系我们”页面。它适用于某些网站,但对于某些网站,request.get 呈现的文本不包含所有“href”链接。当我在浏览器中检查页面时,它是可见的,但在请求中没有通过。 试图寻找解决方案,但没有运气:-
下面是我要抓取的代码和网页https://portcullis.co/ :-
headers = {"Accept-Language": "en-US, en;q=0.5"}
def page_contact(url):
r = requests.get(url, headers = headers)
txt = BeautifulSoup(r.text, 'html.parser')
links = []
for link in txt.findAll('a'):
links.append(link.get('href'))
return r, links
生成的输出是:-
<Response [200]> []
由于它在其他一些网站上运行良好,我希望以一种不仅适合本网站,而且适合所有网站的方式对其进行编辑,
非常感谢任何帮助! 谢谢!!!
【问题讨论】:
-
很多网站都是通过js添加html的,也就是说你在使用requests的时候是不会得到的。你可能想看看Selenium
标签: python-3.x web-scraping beautifulsoup python-requests