【发布时间】:2012-02-08 07:08:07
【问题描述】:
我有以下 python 脚本,它运行良好。
import urllib2
url = 'http://abc.com' # write the url here
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
print data
但是,我给它的一些 URL 可能会重定向 2 次或更多次。在加载数据之前,如何让 python 等待重定向完成。 例如,当使用上面的代码时
http://www.google.com/search?hl=en&q=KEYWORD&btnI=1
这相当于在谷歌搜索中点击我的幸运按钮,我得到:
>>> url = 'http://www.google.com/search?hl=en&q=KEYWORD&btnI=1'
>>> usick = urllib2.urlopen(url)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 400, in open
response = meth(req, response)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 513, in http_response
'http', request, response, code, msg, hdrs)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 438, in error
return self._call_chain(*args)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 372, in _call_chain
result = func(*args)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 521, in http_error_default
raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 403: Forbidden
>>>
我已经尝试过(网址、数据、超时),但是我不确定该放什么。
编辑: 我实际上发现如果我不重定向并且只使用第一个链接的标题,我可以获取下一个重定向的位置并将其用作我的最终链接
【问题讨论】:
-
你熟悉
HTTPRedirectHandler -
我不是。刚google了一下。我可以看到如何让它不跟随。但是,我不能强迫它跟随
-
我知道这已经有一段时间了,但是你能深入挖掘一下内存库并告诉我你是如何解决这个问题的吗?谢谢!
标签: python html web-scraping