【发布时间】:2016-07-24 16:28:36
【问题描述】:
在过去的几天里,我试图废弃以下网站(链接粘贴在下面),该网站在表格中提供了一些 excel 和 pdf。我能够成功地为主页做到这一点。总共有 59 页必须删除这些 excel/pdf。到目前为止,在我看到的大多数网站中,网站 url 中都有一个查询参数,当你从一个页面移动到另一个页面时,它会发生变化。在这种情况下,我们有一个 _doPostBack 函数,可能是因为 URL 在您访问的每个页面上都保持不变。我查看了多个解决方案和帖子,建议查看post 调用的参数并使用它们,但我无法理解post 调用中提供的参数(这是我第一次报废网站)。
有人可以推荐一些资源来帮助我编写代码,帮助我使用 python 从一个页面移动到另一个页面。详情如下:
网站链接 - http://accord.fairfactories.org/ffcweb/Web/ManageSuppliers/InspectionReportsEnglish.aspx
我当前从主页中提取 CAP excel 表的代码(这是完美的,仅供参考)
from urllib.request import urlopen
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import re
import urllib
Base = "http://accord.fairfactories.org/ffcweb/Web"
html = urlopen("http://accord.fairfactories.org/ffcweb/Web/ManageSuppliers/InspectionReportsEnglish.aspx")
bs = BeautifulSoup(html)
name = bs.findAll("td", {"class":"column_style_right column_style_left"})
i = 1
for link in bs.findAll("a", {"id":re.compile("CAP(?!\w)")}):
if 'href' in link.attrs:
name = str(i)+".xlsx"
a = link.attrs['href']
b = a.strip("..")
c = Base+b
urlretrieve(c, name)
i = i+1
如果我在提供信息时遗漏了什么,请告诉我,请不要给我评分 - 否则我将无法进一步提问
【问题讨论】:
标签: python web-scraping dopostback