【发布时间】:2012-01-31 01:46:31
【问题描述】:
我正在尝试使用 PHP 创建一个简单的网络爬虫,它能够爬取 .edu 域,提供父级的种子 URL。
我使用简单的html dom来实现爬虫,而一些核心逻辑由我实现。
我在下面发布代码,并会尝试解释问题。
private function initiateChildCrawler($parent_Url_Html) {
global $CFG;
static $foundLink;
static $parentID;
static $urlToCrawl_InstanceOfChildren;
$forEachCount = 0;
foreach($parent_Url_Html->getHTML()->find('a') as $foundLink)
{
$forEachCount++;
if($forEachCount<500) {
$foundLink->href = url_to_absolute($parent_Url_Html->getURL(), $foundLink->href);
if($this->validateEduDomain($foundLink->href))
{
//Implement else condition later on
$parentID = $this->loadSaveInstance->parentExists_In_URL_DB_CRAWL($this->returnParentDomain($foundLink->href));
if($parentID != FALSE)
{
if($this->loadSaveInstance->checkUrlDuplication_In_URL_DB_CRAWL($foundLink->href) == FALSE)
{
$urlToCrawl_InstanceOfChildren = new urlToCrawl($foundLink->href);
if($urlToCrawl_InstanceOfChildren->getSimpleDomSource($CFG->finalContext)!= FALSE)
{
$this->loadSaveInstance->url_db_html($urlToCrawl_InstanceOfChildren->getURL(), $urlToCrawl_InstanceOfChildren->getHTML());
$this->loadSaveInstance->saveCrawled_To_URL_DB_CRAWL(NULL, $foundLink->href, "crawled", $parentID);
/*if($recursiveCount<1)
{
$this->initiateChildCrawler($urlToCrawl_InstanceOfChildren);
}*/
}
}
}
}
}
}
}
现在您可以看到initiateChildCrawler 被initialParentCrawler 函数调用,该函数将父链接传递给子爬虫。父链接示例:www.berkeley.edu,爬虫将在其主页上找到所有链接并返回其所有 html 内容。这种情况会一直发生,直到种子 URL 用尽为止。
例如: 1-harvard.edu ->>>> 将找到所有链接并返回它们的 html 内容(通过调用 childCrawler)。 移动到 parentCrawler 中的下一个父级。 2-berkeley.edu ->>>> 将找到所有链接并返回它们的 html 内容(通过调用 childCrawler)。
其他功能一目了然。
现在的问题: childCrawler 完成每个链接的 foreach 循环后,函数无法正常退出。如果我从 CLI 运行脚本,CLI 会崩溃。在浏览器中运行脚本会导致脚本终止。
但如果我将爬取子链接的限制设置为 10 个或更少(通过更改 $forEachCount 变量),爬虫就会开始正常工作。
请在这方面帮助我。
来自 CLI 的消息:
问题签名: 问题事件名称:APPRCASH 应用程序名称:php-cgi.exe 应用程序版本:5.3.8.0 申请时间戳:4e537939 故障模块名称:php5ts.dll 故障模块版本:5.3.8.0 故障模块时间戳:4e537a04 异常代码:c0000005 异常偏移量:0000c793 操作系统版本:6.1.7601.2.1.0.256.48 区域设置 ID:1033 附加信息 1:0a9e 附加信息 2:0a9e372d3b4ad19135b953a78882e789 附加信息 3:0a9e 附加信息4:0a9e372d3b4ad19135b953a78882e789
【问题讨论】:
-
请发布 CLI 崩溃的错误消息。
-
问题是你使用了太多内存而没有释放它,因为你的方法可能会递归到 $forEachCount 级别的深度,这意味着内存中的完整文档最多可达 $forEachCount。您应该将其转换为平面循环。保留 url 的主列表以及“已处理 url”的主列表,然后遍历未处理的主列表,加载每个页面一次并将链接添加到主列表。然后,您一次只能在内存中保存一个文档。当主列表达到所需长度时停止。
-
$Ben Lee 我明白你的意思...但是你能解释一下扁平循环这个术语吗?
-
好吧,现在我正在做的是拥有一组要检索 html 的绝对 URL。现在的问题是,在检索并插入大约 50-60 个 URL 及其 html 内容后,我收到“MySQL 服务器已消失”错误。但是,如果我将要检索的 URL 数量限制为更少的数量,比如 10-15,错误就会消失。请在这方面帮助我。
-
当您将代码更改为使用平面列表时,请在解析单个 url 后尝试
sleep(1)。可能你的数据库服务器很弱,不能一次处理很多查询。另外,您可以echo各种函数中的一些调试信息来查看内存使用情况、解析的 url 数量等。
标签: php web web-scraping web-crawler