【发布时间】:2012-12-21 03:42:26
【问题描述】:
我正在寻找一种从不同页面下载文件并将它们存储在本地计算机的特定文件夹下的方法。我正在使用 Python 2.7
请参阅下面的字段:
编辑
这里是html内容:
<input type="hidden" name="supplier.orgProfiles(1152444).location.locationPurposes().extendedAttributes(Upload_RFI_Form).value.filename" value="Screenshot.docx">
<a style="display:inline; position:relative;" href="
/aems/file/filegetrevision.do?fileEntityId=8120070&cs=LU31NT9us5P9Pvkb1BrtdwaCrEraskiCJcY6E2ucP5s.xyz">
Screenshot.docx
</a>
我刚刚尝试过的一种可能性: 如果添加说https://xyz.test.com 并构造如下所示的 URL,则使用 html 内容
然后将该 URL 放在浏览器上并点击Enter,让我有机会下载文件,如屏幕截图所述。但是现在我们能找到这样的aems/file/filegetrevision.do?fileEntityId=8120070&cs=LU31NT9us5P9Pvkb1BrtdwaCrEraskiCJcY6E2ucP5s.xyz 值吗?它存在于那里?
代码 到目前为止我尝试了什么
只是痛苦如何下载该文件。使用脚本构造 URL:
for a in soup.find_all('a', {"style": "display:inline; position:relative;"}, href=True):
href = a['href'].strip()
href = "https://xyz.test.com/" + href
print(href)
请帮帮我!
如果你们需要我提供更多信息,请告诉我,我很乐意与你们分享。
提前致谢!
【问题讨论】:
-
不同页面是什么意思?这些页面是从哪里渲染的?
-
@Amyth 我正在使用第三方
URL。我正在使用selenium在网络中从一个页面导航到另一个页面,搜索那里的任何可下载文件,如果找到,则将它们下载到特定文件夹中。我有 10000 个这样的文件要下载。 -
你能发布完整的 html 吗?
-
这是包含下载链接的html...因此我只给出了这么多!
标签: python selenium python-2.7 beautifulsoup