【问题标题】:How to make a bot to navigate a site? [closed]如何制作机器人来导航网站? [关闭]
【发布时间】:2011-04-12 08:38:15
【问题描述】:

给定产品 ID,员工必须浏览供应商网站、登录、执行搜索,才能为客户获取有关产品的详细信息。

我的雇主想要一个程序,该程序可以使用产品 ID、浏览供应商网站、执行搜索和所有操作以获取信息,从而使员工不必在每次客户想要了解更多信息时手动重复此任务一个产品。

我知道许多网站使用方法来防止 (CAPTCHA) 正是我想要做的事情。所以我不知道这是否会自动使我给定的项目成为“邪恶”项目。但我当然没有恶意,我的雇主只是想节省员工获取他们无论如何都会得到的信息的时间。但是,如果这是“邪恶的”,请解释原因,这样我就可以向我的雇主解释为什么我们不应该走这条路。话说……

我怎样才能在 PHP 中做这样的事情?

【问题讨论】:

  • So I do not know if that automatically makes my given project an "evil" one. - 我认为这完全取决于目标网站的使用条款。如果他们没有,我想在法律方面,一些默认值适用。对于大多数司法管辖区,这可能“没关系”或灰色地带 - 但只有律师才能正确回答。但是为什么不向运营该网站的人征求许可呢?如果他们同意,那将是最好的解决方案。
  • 我想我听说达斯维德正在做一个类似的项目,毕竟他很邪恶。
  • 不一定是邪恶的。但是,如果他们的网站中有 robots.txt,请尽可能尊重它。而且你不应该钉住网站并用请求来爆破它。这是让您的应用程序被网站屏蔽的好方法。
  • 那肯定是邪恶的。尝试注册一些谷歌服务并考虑你必须输入的验证码图像。它的同谋是这种机器人的直接后果。愿意提供信息的供应商肯定有一个 API。虽然这样的刮擦使人们对此进行防御,并使人类的生活更加艰难。这是最好的邪恶:一个贪婪的机器人制造商给成千上万的人制造麻烦。

标签: php automation bots


【解决方案1】:

首先我建议阅读 cURL 和 DOM

cURL:http://php.net/curl(用于抓取页面,甚至模拟搜索表单)

DOM:http://www.php.net/manual/en/book.dom.php(用于解析获取的页面)

【讨论】:

    【解决方案2】:

    这取决于您尝试访问的网站。许多网站都有可用于访问数据的 API。如果不是这种情况,您可能需要编写一个程序,使用 GET 请求加载 html,解析响应,并检索您想要的信息。没有更多细节,这是我能给出的最佳答案。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-07-01
      • 2016-02-11
      • 1970-01-01
      • 2014-06-04
      • 1970-01-01
      • 2016-01-19
      • 2016-10-13
      • 2015-04-13
      相关资源
      最近更新 更多