【发布时间】:2013-11-11 06:49:44
【问题描述】:
我正在尝试在一个项目中使用 scrapy。我无法绕过 https://text.westlaw.com/signon/default.wl?RS=ACCS10.10&VR=2.0&newdoor=true&sotype=mup 的身份验证系统。 为了理解这个问题,我做了一个简单的请求处理程序。
import cookielib, urllib2
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36'),]
url='https://text.westlaw.com/signon/default.wl?RS=ACCS10.10&VR=2.0&newdoor=true&sotype=mup'
r = opener.open(url)
f = open('code.html', 'wb')
f.write(r.read())
f.close()
返回的 html 代码不包含表单元素。可能有人知道如何说服服务器,我不是假浏览器,所以我可以继续进行身份验证?
【问题讨论】:
-
问题是否来自于 r = opener.urlopen(url) 而不是 open ?
标签: python authentication web-scraping scrapy