【发布时间】:2015-01-20 11:30:03
【问题描述】:
我正在使用 php 和 curl 进行网页抓取以抓取整个网站
但是完成爬取过程需要一天多的时间
我什至用过
ignore_user_abort(true);
set_error_handler(array(&$this, 'customError'));
set_time_limit (0);
ini_set('memory_limit', '-1');
在抓取我使用简单 html DOM 的页面后,我还清除了内存 从页面获取抓取详细信息
但是进程仍然在运行并且在停止之后对于一些链接工作正常,尽管进程不断循环浏览器并且没有生成错误日志
无法理解似乎是什么问题。
我还需要知道 PHP 是否可以
运行两三天?
提前致谢
【问题讨论】:
-
如果 simple-html-dom 速度慢或占用内存,您可以考虑this replacement
标签: php curl web-scraping screen-scraping