【发布时间】:2016-07-28 19:22:26
【问题描述】:
我正在尝试向以下页面发出 POST 请求:http://search.cpsa.ca/PhysicianSearch
为了模拟单击“搜索”按钮而不填写任何表单,从而将数据添加到页面。我通过在 Chrome 开发者工具中查看网络选项卡时单击按钮获得了 POST 标头信息。我发布这个而不是仅仅复制其他类似问题的解决方案的原因是我相信我可能没有得到正确的标题信息。
它的格式是否正确,我是否获取了正确的信息?我以前从未发出过 POST 请求。
这是我拼凑起来的:
import urllib.parse
import urllib.request
data = urllib.parse.urlencode({'Host': 'search.cpsa.ca', 'Connection': 'keep-alive', 'Content-Length': 23796,
'Origin': 'http://search.cpsa.ca', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Cahce-Control': 'no-cache', 'X-Requested-With': 'XMLHttpRequest',
'X-MicrosoftAjax': 'Delta=true', 'Accept': '*/*',
'Referer': 'http://search.cpsa.ca/PhysicianSearch',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'en-GB,en-US;q=0.8,en;q=0.6',
'Cookie': 'ASP.NET_SessionId=kcwsgio3dchqjmyjtwue402c; _ga=GA1.2.412607756.1459536682; _gat=1'})
url = "http://www.musi-cal.com/cgi-bin/query?%s"
data = data.encode('ascii')
with urllib.request.urlopen("http://search.cpsa.ca/PhysicianSearch", data) as f:
print(f.read().decode('utf-8'))
此解决方案输出页面的 HTML,但不包含我想从 POST 请求中检索的任何数据。
【问题讨论】:
-
POST 数据应与您提交的表单的输入元素的名称属性和值相对应。您可以通过检查表单的 html 来获取名称属性。您将请求标头用作 POST 数据 - 这不起作用。另外,考虑使用 requests 包(docs.python-requests.org/en/master),它比 urllib2 更友好。
-
如何指定表格?还是我只需要指定数据的键值对?
-
在 chrome 中,像之前一样查看网络选项卡中的 POST 请求,然后转到标题选项卡的底部 - 无论是 POST 请求还是 GET,您都会看到名称和值带有查询参数的请求
-
我这样做了,一个 POST 请求正在发生,但它实际上并没有抓取页面。这是 requests.text 给我的:1|#||4|50|pageRedirect||%2fError.aspx%3faspxerrorpath%3d%2fPhysicianSearch|
标签: python http post web-scraping urllib