【问题标题】:Parse a web page and subpages via PHP [closed]通过 PHP 解析网页和子页面 [关闭]
【发布时间】:2014-03-22 03:52:35
【问题描述】:

在下面的链接中,我想进入每个子页面并将 HTML 表解析为单个 .html 文件。此外,例如,如果我单击会计子页面,该子页面有多个课程列表页面(第 1、2、3 页等)。我也想解析子页面的所有页面。

这里是父页面:http://my.gwu.edu/mod/pws/subjects.cfm?campId=1&termId=201401

我需要使用网络爬虫吗?在一个 .html 文件中编译所有子页面的最佳方法是什么?我如何编写代码以有效地从列出的所有子页面中抓取所有 html 表数据?干杯!

【问题讨论】:

    标签: php html parsing web-scraping html-table


    【解决方案1】:

    您可以使用ultimate-web-scraper 来获取该页面。然后浏览您找到的所有链接,如下所示,请查看the docs 了解完整内容。

    $html->load($result["body"]);
    $rows = $html->find("a[href]");
    foreach ($rows as $row)
    {
      //get the page at $row->href, and so on recursevly
    }
    

    如果您这样做,请务必跟踪您访问过的链接,否则您可能会陷入无限循环。

    顺便说一句,如果有几百页,这可能不是一个好的解决方案,因为它会很慢。

    【讨论】:

      猜你喜欢
      • 2012-01-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-01-31
      • 2016-02-11
      • 2013-04-02
      • 2015-05-21
      相关资源
      最近更新 更多