【发布时间】:2013-05-18 17:33:23
【问题描述】:
我目前正在构建一个网络爬虫,但首先我想在我的共享虚拟主机上对其进行测试,显然他们不允许set_time_limit,所以我无法确保脚本持续运行超过 30 秒。
下次超时时启动 PHP 脚本的最佳方式是什么? 我正在考虑将上次抓取的 URL 保存在文件中,但还有其他选择吗?
【问题讨论】:
-
既然您正在构建一个网络爬虫,请考虑将当前爬取的 URL 存储在某处,然后如果爬虫崩溃,您可以从该特定 URL 恢复。
-
没错,问题是脚本在有机会爬取一页之前经常超时。
-
如果您在超时后保存上次抓取的 url 以供恢复,请务必跳过并重新安排失败的 url。否则,您可能会在损坏的页面上陷入无限循环。
标签: php web-crawler