【问题标题】:Website crawler for big sites that crawl site status, title and h1用于抓取网站状态、标题和 h1 的大型网站的网站爬虫
【发布时间】:2014-09-11 10:09:15
【问题描述】:

我想抓取大型网站(例如具有 1 000 000 个内部链接),而我现在使用的工具(Screaming Frog 和 Xenu)太多了。你知道任何 PHP 爬虫,它发送有关链接数据到数据库并可以为我提供解决方案吗?

或者当我想概述网站上所有内部和外部链接以及网站状态和标题时,你有什么想法可以解决这个问题吗?任何付费脚本或其他东西(但没有像http://info.deepcrawl.co.uk/pricing/usd 这样对我来说真的很贵并且按月付费的在线工具)。

我有一个运行脚本的服务器。

我需要这样的东西: http://codecanyon.net/item/jseo-web-crawler-for-search-engine-optimization/full_screen_preview/8770392 但是这个脚本只能抓取很少的链接,不支持 MySQL 数据库保存。

感谢您的建议, 菲利普

【问题讨论】:

    标签: web-crawler


    【解决方案1】:

    首先创建一个 php 文件并将 DOM 解析器 php 文件包含在其中。 然后进入那个

    $toGet = "your website link";
    $innerHtmlPage = file_get_html($toGet);
    

    以下代码用于从网站的该页面中查找标签或属性,然后您可以使用 diff 获取内容。 DOM 解析器功能,如纯文本、内部文本、外部文本等。

    foreach ($innerHtmlPage->find('body .paginationtop .data-display-view-all span') as $innerelement) {
          $pages = trim(strip_tags(substr($innerelement, strpos($innerelement, "of") + 2)));
     }
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-09-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-04-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多