通过 PHP 解析网页和子页面 [关闭]答案

【问题标题】：Parse a web page and subpages via PHP [closed]通过 PHP 解析网页和子页面 [关闭]
【发布时间】：2014-03-22 03:52:35
【问题描述】：

在下面的链接中，我想进入每个子页面并将 HTML 表解析为单个 .html 文件。此外，例如，如果我单击会计子页面，该子页面有多个课程列表页面（第 1、2、3 页等）。我也想解析子页面的所有页面。

我需要使用网络爬虫吗？在一个 .html 文件中编译所有子页面的最佳方法是什么？我如何编写代码以有效地从列出的所有子页面中抓取所有 html 表数据？干杯!

【问题讨论】：

【解决方案1】：

您可以使用ultimate-web-scraper 来获取该页面。然后浏览您找到的所有链接，如下所示，请查看the docs 了解完整内容。

$html->load($result["body"]);
$rows = $html->find("a[href]");
foreach ($rows as $row)
{
  //get the page at $row->href, and so on recursevly
}

如果您这样做，请务必跟踪您访问过的链接，否则您可能会陷入无限循环。

顺便说一句，如果有几百页，这可能不是一个好的解决方案，因为它会很慢。

【讨论】：