【发布时间】:2017-12-12 21:31:46
【问题描述】:
我想从http://imaging.occeweb.com/imaging/UIC1012_1075.aspx下载与“API#”值列表对应的所有 pdf 文档
到目前为止,我已成功发布“API#”请求,但不知道下一步该做什么。
import requests
headers = {'User-Agent': 'Mozilla/5.0'}
url = 'http://imaging.occeweb.com/imaging/UIC1012_1075.aspx'
API = '15335187'
payload = {'txtIndex7':'1','txtIndex2': API}
session = requests.Session()
res = session.post(url,headers=headers,data=payload)
【问题讨论】:
-
看看
res.content。该 URL 返回一个表单。您需要先弄清楚如何填写该表格(您将手动输入什么值?)。从那里开始构建一个 POST 请求来下载每个文件。 -
使用
lxml或BeautifulSoup和res.content解析它,然后您可以在HTML 中搜索标签并获取信息。 -
这个页面似乎是使用 Microsoft DotNet 生成的,因此它发送了许多隐藏元素 - 例如
__VIEWSTATE- 您也必须发送这些元素。您可以在 Chrome/Firefox 中使用DevTool来查看从浏览器发送到服务器的所有标头/参数。
标签: python web-scraping web python-requests