【发布时间】:2017-11-17 18:09:27
【问题描述】:
我正在尝试抓取一个网站,但是当我打开网页时,它有 5 秒的重定向延迟,即您必须等待 5 秒,然后才能加载真正的页面。 我试过下面的代码。
from bs4 import BeautifulSoup
import time
import requests
r=requests.get("https://etherscan.io/address/0xc257274276a4e539741ca11b590b9447b26a8051",timeout=6)
time.sleep(5)
print(r.history)
data=r.text
soup=BeautifulSoup(data)
print(soup.prettify())
但是当我运行代码时,我得到的是重定向页面,而不是最终页面。感谢您的帮助
【问题讨论】:
-
我认为抓取这个网站更适合 Selenium。BeautifulSoup 几乎没有 JavaScript 功能
-
是的,看起来它正在使用 cloudflare,selenium 将是您最简单的方法
-
Etherscan 拥有an API。您可能应该使用它,除非您无法获得所需的信息。
标签: python web-scraping beautifulsoup python-requests