【问题标题】:CFhttp to Scrape ImageCFhttp 抓取图像
【发布时间】:2012-01-05 20:33:58
【问题描述】:

承包商向我们提供了一组商店的调查数据。数据包含商店编号、缩略图和大图。数据通过承包商的安全网站访问。为了构建数据报告,我尝试从网站上抓取商店编号和图片,而不是手动下载每张图片。

我没有将 CFhttp 用于安全站点,但到目前为止已经取得了一些成功:

<cfhttp 
    method="post" 
    url="http://www.website.com/impart/client_login.php"
    throwonerror="Yes"
    redirect = "yes"
    resolveUrl = "yes">

    <cfhttpparam name="user" value="myUsername" type="formfield">
    <cfhttpparam name="pass" value="myPassword" type="formfield">
    <cfhttpparam name="submit" value="Login" type="formfield">

如何从通过身份验证进入包含要下载的图像的页面?

【问题讨论】:

  • 您需要了解更多关于(然后在此处转发)第三方网站的身份验证的信息,然后才能提供完整的答案。您可能会走运,并且能够在手动成功登录到他们的站点后监控一个或多个 cookie 的创建——如果是这样的话——使用这些 cookie 的名称(和值)用于随后对安全页面的 cfhttp 调用。首先,您需要明确知道......否则,答案将基于纯粹的猜测。

标签: coldfusion cfhttp


【解决方案1】:

我认为 CFHTTP 可能不是最好的选择。我擅长 BASH,所以我倾向于用 curl 编写脚本,但也许这个页面上的某些产品会更容易http://www.timedicer.co.uk/web-scraping

【讨论】:

    【解决方案2】:

    cfhttp 作用域的转储是什么样的?具体来说,什么是状态码?

    如果您获得 200 的状态代码,则需要在抓取每张图片时保持会话。请参阅以下内容:

    http://www.bennadel.com/blog/725-Maintaining-Sessions-Across-Multiple-ColdFusion-CFHttp-Requests.htm

    http://www.bennadel.com/projects/cfhttp-session.htm

    有关通过 CFHTTP 保存图像的问题,请参阅此问题:

    Convert an image from CFHTTP filecontent to binary data with Coldfusion

    【讨论】:

    • 不敢相信我忽略了 Ben 的帖子。谢谢你的指导。它为我提供了迄今为止最大的进步。
    • 去掉链接,这里没有答案。 Ben 是个好人,提供了一些很棒的信息,但是有什么能阻止他更改永久链接或关闭他的博客呢?请记住,此信息不仅适用于最初的提问者,也适用于有相同问题的未来读者。
    • @Al 在某种程度上我同意,但我认为指向权威资源的链接是 SO 美学的一部分,在我见过的许多答案中都有其特点。此外,Ben 的博客已成为事实上的规范资源;我觉得与它的链接就像我想说的 Railo 或 ColdBox wiki 一样好。此外,我不想抄袭或声称功劳。我当然可以总结和归因,但我担心翻译时会失去保真度。我相信 SO 与精心策划的“资源资源”一样有价值,因为它是内容和代码的存储库。
    • 您可能想阅读有关 MSO 的许多对话。它不是 SO 美学的一部分;用户不必离开网站即可获得所需的信息。
    • 感谢您的反馈。下次我会尝试在链接中添加一些解释/摘要,但我仍会保留链接,以保持理智上的诚实。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-28
    • 2012-02-15
    • 2021-03-22
    相关资源
    最近更新 更多