【发布时间】:2018-10-02 21:13:40
【问题描述】:
我想获取网站的 HTML,但由于我想是用户代理,我无法获取它。因为当我调用 uClient=ureq(my_url) 时,我收到如下错误: urllib.error.HTTPError: HTTP Error 403: Forbidden
这是代码:
from urllib.request import urlopen as ureq, Request
from bs4 import BeautifulSoup as soup
my_url= 'https://hsreplay.net/meta/#tab=matchups&sortBy=winrate'
ureq(Request(my_url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}))
uClient=ureq(my_url)
page_html=uClient.read()
uClient.close()
html=soup(page_html,"html.parser")
我尝试了其他方法来更改用户代理和其他用户代理,但它不起作用。
我很确定你会帮忙的。谢谢!!
【问题讨论】:
标签: python python-3.x web-scraping urllib