【发布时间】:2012-12-03 05:24:19
【问题描述】:
我的浏览器可以访问一个网页,但urllib2.urlopen()(Python)和wget都返回HTTP 403(禁止)。有没有办法弄清楚发生了什么?
我使用最原始的形式,例如urllib2.urlopen("http://test.com/test.php"),对浏览器和wget 使用相同的url (http://test.com/test.php)。在测试之前,我已经清除了浏览器中的所有 cookie。
非常感谢!
【问题讨论】:
-
我试过了,它会打印
success bla你正在运行什么系统和什么版本的python。 -
该网站可能阻碍了屏幕抓取。见
http://test.com/robots.txt。尝试更改 User-Agent 标头。 -
@enginefree 我不认为 OP 的字面意思是
http://test.com/test.php。 -
@J.F.Sebastian 他们还能做些什么来阻止屏幕抓取?我制作的标题与我在 LiveHTTPheaders 中看到的完全一样
-
关闭浏览器中的javascript、flash、图片是否有效?
标签: python http-headers httprequest urllib2 http-status-code-403