【发布时间】:2010-09-12 07:31:59
【问题描述】:
我尝试使用 Python 的 urllib 获取 Wikipedia 文章:
f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes")
s = f.read()
f.close()
但是,我得到以下响应而不是 html 页面:错误 - 维基媒体基金会:
Request: GET http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes, from 192.35.17.11 via knsq1.knams.wikimedia.org (squid/2.6.STABLE21) to ()
Error: ERR_ACCESS_DENIED, errno [No Error] at Tue, 23 Sep 2008 09:09:08 GMT
维基百科似乎阻止了不是来自标准浏览器的请求。
有人知道如何解决这个问题吗?
【问题讨论】:
-
维基百科不会阻止来自标准浏览器的请求,它会阻止来自标准库的请求而不更改其用户代理。
标签: python urllib2 user-agent wikipedia http-status-code-403