用于抓取网站状态、标题和 h1 的大型网站的网站爬虫答案

【问题标题】：Website crawler for big sites that crawl site status, title and h1用于抓取网站状态、标题和 h1 的大型网站的网站爬虫
【发布时间】：2014-09-11 10:09:15
【问题描述】：

我想抓取大型网站（例如具有 1 000 000 个内部链接），而我现在使用的工具（Screaming Frog 和 Xenu）太多了。你知道任何 PHP 爬虫，它发送有关链接数据到数据库并可以为我提供解决方案吗？

或者当我想概述网站上所有内部和外部链接以及网站状态和标题时，你有什么想法可以解决这个问题吗？任何付费脚本或其他东西（但没有像http://info.deepcrawl.co.uk/pricing/usd 这样对我来说真的很贵并且按月付费的在线工具）。

我有一个运行脚本的服务器。

我需要这样的东西： http://codecanyon.net/item/jseo-web-crawler-for-search-engine-optimization/full_screen_preview/8770392 但是这个脚本只能抓取很少的链接，不支持 MySQL 数据库保存。

感谢您的建议，菲利普

【问题讨论】：

标签： web-crawler

【解决方案1】：

首先创建一个 php 文件并将 DOM 解析器 php 文件包含在其中。然后进入那个

$toGet = "your website link";
$innerHtmlPage = file_get_html($toGet);

以下代码用于从网站的该页面中查找标签或属性，然后您可以使用 diff 获取内容。 DOM 解析器功能，如纯文本、内部文本、外部文本等。

foreach ($innerHtmlPage->find('body .paginationtop .data-display-view-all span') as $innerelement) {
      $pages = trim(strip_tags(substr($innerelement, strpos($innerelement, "of") + 2)));
 }

【讨论】：