【问题标题】:Get specific data from secured websites从安全网站获取特定数据
【发布时间】:2012-06-01 23:42:49
【问题描述】:

我有几个网站,我会定期查看这些网站来比较产品价格。 Atm 我必须手动登录并在每个网站上通过产品 ID 进行搜索才能获取产品详细信息(价格)。

这既费时又无聊。

我正在考虑制作一个 Web 应用程序,我可以在其中使用我的登录凭据进入所有这些网站。我只需要输入一个产品 ID,我的 web 应用程序就会从这些网站获取所有结果并以可比较的方式显示它们。

我不认为这些网站有 API,所以我正在寻找解决这个问题的最佳方法。我想这不是那么简单,因为我需要登录 + 搜索产品。

关于如何实现这一点的任何建议?

谢谢!

【问题讨论】:

  • 这叫做屏幕抓取,大多数商业网站的服务条款都明确禁止。

标签: php javascript asp.net curl information-retrieval


【解决方案1】:

+1 对 Marc B 的评论。如果 TOS 没有明确禁止它(并且因为这也将被视为爬虫),您应该查看/robots.txt 是否不允许您访问产品搜索。如果两者都不禁止,我建议使用基于浏览器的机器人为您获取结果,因为这听起来更实用,而且您不必处理 cookie。

不过,如果您想使用 PHP 发出页面请求,我会引导您到 HttpRequest。有一个页面,您可以在其中登录所有站点(在登录脚本上使用 POST 请求),并保持返回的会话 cookie 方便。当您搜索产品页面时,确定 HTML 的哪一部分始终返回其后的产品列表(正则表达式可能会有所帮助),并创建一个算法(对于您要抓取的每个网站,该算法应该不同)返回有关信息产品。然后比较结果!

【讨论】:

    猜你喜欢
    • 2012-03-27
    • 2020-11-15
    • 2021-08-04
    • 1970-01-01
    • 2021-08-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-11-27
    相关资源
    最近更新 更多