【发布时间】:2016-09-08 09:10:53
【问题描述】:
我正在编写一个脚本来“自动化我的生活”:) 但遇到了一个我无法解决的问题。
这个 python 脚本会抓取一个页面并获取我需要的“产品”的链接,问题是一旦我获得了产品页面的链接来下载这个“产品”的 pdf,你必须按一个按钮,这就是问题所在,因为按钮中没有href:
<Form name="F1" method="POST" action="onSubmit="if($$('btn_download').disabled)return false;$$('btn_download').value='Invia File...';$$('btn_download').disabled=true;return true;">
按下按钮时查看 http 标头,我看到下载文件时它使用如下链接:
https://example.com:443/d/vmlz3ovktv2fvxijixczjdagbdnaeamniexu4zypx3tlesibbhuievcy/product.pdf
值“vmlz3ovktv2fvxijixczjdagbdnaeamniexu4zypx3tlesibbhuievcy”每天都在变化,有什么建议可以解决这个问题吗?
是否可以在 python 中获取 http 标头并解析以获取值? 还是按一个按钮然后处理下载?
非常感谢!
【问题讨论】:
标签: python http download header automation