【问题标题】:I need help making a website crawler using php [closed]我需要帮助使用 php 制作网站爬虫 [关闭]
【发布时间】:2011-06-11 20:03:48
【问题描述】:

我真的很想制作一个网站爬虫,它可以访问一个网站,扫描它的链接,将链接放入数据库并移动到另一个网站。我找到了一个网站,但代码确实有问题。如果你见过这样的东西或者你自己写过一篇。

【问题讨论】:

  • 您要抓取多少个网站?除非您在服务器上生成多个 PHP 进程,否则您将遇到麻烦。 PHP 是单线程的,你不会高效地抓取页面。
  • please post the code, not the website!我强烈反对/不同意这一点,该网站将比预先编写的代码具有更大的用途,也供将来参考。
  • 还有其他更高效的语言吗?我只想要一个网络爬虫
  • 您会在 Perl 区域找到更多现成的爬虫。 WWW::Mechanize 浮现在脑海中。
  • 乞讨无济于事,要有尊严。

标签: php web-crawler


【解决方案1】:

您可能找不到任何适合 PHP 的东西,因为它通常适用于短时页面。例如,许多服务器都设置为 30 秒超时。您可以为命令行脚本编写 PHP,但我怀疑这不是您想要的。

无论如何,如果您想要一个预打包的解决方案,为什么要关心语言?

我会推荐 wget 之类的东西来抓取网站并将它们保存到光盘。然后您可以遍历文件和目录,并提取链接。难点是爬取网站(这并不简单)。你可以编写代码来拉出链接,没有太大的困难。

【讨论】:

    【解决方案2】:

    我找到了一个,如果有人在看,这里是链接:php-crawler

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-02-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-03-01
      • 2015-04-20
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多